GPT理解的CV:基于Yolov5的半监督目标检测

news/2024/7/11 1:35:53 标签: 目标检测, gpt, YOLO, 深度学习, 计算机视觉

关注并星标

从此不迷路

计算机视觉研究院

a18ba0f9f54ff2a9a0497ef5a9f0fead.gif

0e354e020a54e3e0b07814b9daa63b20.gif

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

主要贡献是提出了一种名为“Efficient Teacher”的半监督目标检测算法。与传统的监督学习算法不同,Efficient Teacher利用无标签数据进行训练,并且在训练过程中使用了半监督学习的方法。这种方法可以有效地利用无标签数据,减少过拟合的风险,并且可以提高模型的泛化能力。

注意:本文主要是GPT解读,如有差异请在留言指出!

01

bf2ba918ca02f0f34c779a37f88e5fd9.png

概要

5ddf377ceafc3d229035ea7a23007677.png

半监督目标检测(SSOD)已经成功地提高了R-CNN系列和无锚检测器的性能。然而,一级基于锚的检测器缺乏生成高质量或灵活伪标签的结构,导致SSOD中存在严重的不一致性问题。在今天分享中,提出了一个高效的教师框架,用于可扩展和有效的基于单阶段锚的SSOD训练,该框架由密集检测器、伪标签分配器和Epoch适配器组成。Dense Detector是一个基线模型,它以YOLOv5为灵感,使用密集采样技术扩展了RetinaNet。高效教师框架引入了一种新的伪标签分配机制,称为伪标签分配器,它更精细地利用了密集检测器中的伪标签。

Epoch Adaptor是一种为密集探测器提供稳定高效的端到端SSOD训练计划的方法。伪标签分配器防止了在师生相互学习机制期间由大量低质量伪标签引起的可能干扰密集检测器的偏差的发生,并且Epoch适配器利用域和分布自适应来允许密集检测器学习全局分布的一致特征,使得训练与标记数据的比例无关。我们的实验表明,高效教师框架在VOC、COCO标准和COCO附加方面取得了最先进的结果,使用的FLOP比以前的方法更少。据我们所知,这是将SSOD应用于YOLOv5的第一次尝试。

02

c03dee11d7a3f6761de2bea042346d7d.png

新框架

0ce0410fa58a482e49623318649e12d9.png

高效教师(Efficient Teacher)是一种新颖高效的半监督目标检测框架,它显著提高了基于单级锚点的检测器的性能。该框架基于师生相互学习的方法,如下图所示,灵感来自以前的工作。提出的伪标签分配器方法根据伪标签的得分将其分为可靠和不确定的伪标签,其中可靠的伪标签用于默认监督训练,不确定的用于指导软损失学生模型的训练。Epoch-Adaptor方法通过在标记数据和未标记数据之间进行域自适应,并计算每个历元中伪标签的阈值,来加速收敛。在整个培训过程中,教师模型采用指数移动平均(EMA)技术进行更新。

86b5b6008134984b6354ab9463828f6d.png

比较RetinaNet和检测聚类器的伪指标分布图,发现:

(a)RetinaNet使用了更少的输入数据,产生了更高的分辨率,暗色表示分数较低;
(b)检测聚类器利用更多的输入数据,根据物体特征和分类结果产生了更强健和更密集的反应。

10d37c92a338b56fc4e92f4f4aef7b1e.png

伪标签过滤是 SSOD 中常用的一种方法,阈值设置太低会产生错误的伪标签,而阈值设置太高则可能排除可靠的伪标签,从而导致分配不佳,进而影响网络训练的效果。为了解决这个问题,我们提出了伪标签分配器方法,该方法根据高低阈值将伪标签分为可靠和不可靠的类别,分别为目标 L 提高单目标 SSOD 中伪标签的质量。

f9217e666f5c8fafc012594141017b62.png

Main epoch 表示整个训练期间不中断,并且在执行期间没有任何新权重的加载。有效教师的训练策略:(a)在标记数据上进行监督训练,然后在未标记数据上进行基于标记的 SSOD 训练;(b)在标记数据上进行监督训练,并在未标记数据上进行基于标记的 SSOD 训练以外的额外基于标记的 SSOD 训练;(c)在标记数据和未标记数据上进行端到端训练,并使用适应域和分布的 Epoch 适配器以改进收敛和特征分布。

507baf2d6e80294793fa056029dca527.png

03

7410414042d2d744cce4e6b04faef024.png

实验

0f4bcede807e0543ea94c5455a58475b.png

7a8a91b273eca95680a59f901626f85e.png

Experimental results on COCO-standard (AP50:95)

cda25f4432963fb8d3e7ab599b3f3efc.png

PASCAL-VOC的实验结果。†表示使用ImageNet预训练骨干来初始化高效教师

© THE END 

转载请联系本公众号获得授权

0f1ffe6d4c1b6c983c633d9fd21e17d7.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

05fe822d553d955dd1df119b56381636.png

 往期推荐 

🔗

  • 改进的YOLO:AF-FPN替换金字塔模块提升目标检测精度

  • FastestDet:比yolov5更快!更强!全新设计的超实时Anchor-free目标检测算法(附源代码下载)

  • 用于吸烟行为检测的可解释特征学习框架(附论文下载)

  • 图像自适应YOLO:恶劣天气下的目标检测(附源代码)

  • 新冠状病毒自动口罩检测:方法的比较分析(附源代码)

  • NÜWA:女娲算法,多模态预训练模型,大杀四方!(附源代码下载)

  • 实用教程详解:模型部署,用DNN模块部署YOLOv5目标检测(附源代码)


http://www.niftyadmin.cn/n/337700.html

相关文章

晶能转债,正元转02上市价格预测

晶能转债 基本信息 转债名称:晶能转债,评级:AA,发行规模:100.0亿元。 正股名称:晶科能源,今日收盘价:12.19元,转股价格:13.79元。 当前转股价值 转债面值 / …

软件工程(五) 结构化需求与面向对象需求分析

1、结构化需求分析(SA) 结构化需求分析要完成功能模型、数据模型和行为模型的构建。 1.1、功能模型 一般用数据流图进行建模,也就是DFD。 比如我们要开发一个子啊先教育平台系统,我们把这个系统看作一个整体,去分析哪些人员会用到这个系统。比如有学员,培训部,辅导老师…

<达梦> 《达梦数据库常用命令》

《达梦数据库常用命令》 1 数据库1.1 启动数据库1.2 连接数据库1.3 使用DISQL直接执行命令 2 数据库对象2.1 表2.2 LICENSE 3 数据库操作3.1 开启归档日志3.2 脱机完全备份(RMAN)3.3 联机完全备份(disql)3.4 数据库表备份3.5 数据…

这个屏幕录制太好用了!

哈喽,大家好!今天给各位小伙伴测试了一屏幕录制的小工具——ApowerREC。它是一款专业同步录制屏幕画面及声音的录屏软件。界面简洁,操作简单,支持实时编辑屏幕录像、创建计划任务、录制摄像头高清视频等功能。废话不多说&#xff…

常数整数乘法优化

常数整数乘法优化 文章目录 常数整数乘法优化基于正则有符号数的常数整数乘法优化Example 1: 20 x 20x 20xExample 2: 153 x 153x 153xExample 3: 15 x 15x 15x正则有符号数编码 CSD二进制序列转CSD编码算法流程代码实现欢迎关注公众号【三戒纪元】 嵌入式机器学习或深度学习…

Hive on Spark调优(大数据技术7)

第7章 数据倾斜优化 7.1 数据倾斜说明 数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往一个Reduce,进而导致该Reduce所需的时间远…

JSP学生网上选课系统设计(源代码+论文+答辩PPT)

随着科学技术的不断提高,计算机科学日渐成熟,其强大的功能已为人们深刻认识,它已进入人类社会的各个领域并发挥着越来越重要的作用。学生选课系统作为一种现代化的教学技术,以越来越受到人民的重视,是一个学校不可缺少的部分, 学生选课系统就是为了管理好…

别在碳排放问题上大搞双重标准!

* * * 原创:刘教链 * * * 隔夜比特币从26.5k一线奋力跃升,回升至27.5k一线。 最近美国有些人又要对比特币的碳排放搞双重标准了。说的是比特币挖矿烧掉了多少多少电力,折合多少多少碳排放,因此应当加征多少多少排放税&#xff0c…