【目标检测】——Gold-YOLO为啥能超过YOLOV8

news/2024/7/11 1:04:43 标签: YOLO, 人工智能, 目标检测, gold-yolo, yolov8

华为
https://arxiv.org/pdf/2309.11331.pdf
文章的出发点:FPN中的信息传输问题

1. 简介

基于全局信息融合的概念,提出了一种新的收集和分发机制(GD),用于在YOLO中进行有效的信息交换。通过全局融合多层特征并将全局信息注入到更高的层次,显著增强了NECK的信息融合能力,提高了模型在不同对象大小上的性能。具体来说,GD机制包括两个分支:一个浅层收集和分发分支和一个深层收集和分发分支,它们通过卷积基础块和注意力基础块提取和融合特征信息。为了进一步促进信息流动,我们引入了一个轻量级的相邻层融合模块,它在局部范围内结合了来自相邻层的特征。我们的Gold-YOLO架构超越了现有的YOLO系列,有效地展示了我们提出的方法的有效性。

为了进一步提高模型的准确性,我们还引入了一种预训练方法,我们使用MAE方法在ImageNet 1K上预训练模型的主干网络,这显著提高了模型的收敛速度和准确性。例如,我们的Gold-YOLO-S经过预训练后,实现了46.4%的AP,超过了之前的SOTA YOLOv6-3.0-S的45.0%的AP,同时速度相似。

2. method

现有Neck的问题
传统上,不同层次的特征携带了关于各种大小对象的位置信息。较大的特征包含了较小对象的低维纹理细节和位置。相反,较小的特征包含了较大对象的高维信息和位置。特征金字塔网络(FPN)的原始思想是,这些不同的信息可以通过相互协助来提高网络性能。FPN提供了一种有效的架构设计,通过跨尺度连接和信息交换来融合多尺度特征,从而提高了对各种大小对象的检测精度。

基于FPN,路径聚合网络(PANet)引入了一个自下而上的路径,使得不同层次之间的信息融合更为充分。类似地,EfficientDet提出了一种新的可重复模块(BiFPN),以提高不同层次之间信息融合的效率。M2Det引入了一个具有U形和特征融合模块的高效MLFPN架构。Ping-Yang Chen通过双向融合模块改进了深层和浅层之间的交互。与这些层间工作不同,[35]使用集中特征金字塔(CFP)方法探索了单个特征信息。此外,[51]扩展了FPN,使用渐近特征金字塔网络(AFPN)进行非相邻层之间的交互。

YOLO系列的颈部结构,如图3所示,采用了传统的FPN结构,该结构包含多个分支用于多尺度特征融合。然而,它只能完全融合来自相邻层次的特征,对于其他层次的信息,只能通过“递归”方式间接获取。在图3中,展示了传统FPN的信息融合结构:其中现有的level-1、2和3从上到下排列。FPN用于不同层次之间的融合。当level-1从其他两个层次获取信息时,有两种不同的情况:

1. 如果第一层(level-1)想要使用来自第二层(level-2)的信息,它可以直接获取并融合这些信息。
2. 如果第一层想要使用来自第三层(level-3)的信息,它需要递归地调用相邻层的信息融合模块。具体来说,必须先融合第二层和第三层的信息,然后第一层可以通过结合第二层的信息间接获取第三层的信息。

这种方法是为了解决在传统的特征金字塔网络(FPN)结构中存在的信息传输问题。在FPN中,当需要跨层级融合信息时(例如,将level-1和level-3进行融合),传统的FPN结构无法无损地传输信息,这阻碍了YOLOs更好地进行信息融合。因此,作者提出了一种新的收集和分发机制(GD),通过全局融合多尺度特征并将全局信息注入到更高的层次,显著增强了脖子的信息融合能力,提高了模型在不同对象大小上的性能

在这里插入图片描述
收集和分发过程对应于三个模块:特征对齐模块(FAM),信息融合模块(IFM)和信息注入模块(Inject)

收集过程涉及两个步骤。首先,FAM从各个层次收集并对齐特征。其次,IFM融合对齐的特征以生成全局信息。
在从收集过程中获取融合的全局信息后,注入模块将此信息分发到每个层次并使用简单的注意力操作注入,从而增强分支的检测能力。 为了增强模型检测不同大小对象的能力,我们开发了两个分支:低阶收集和分发分支(Low-GD)和高阶收集和分发分支(High-GD)。这些分支分别提取和融合大尺寸和小尺寸的特征图。

网络结构
在这里插入图片描述

2.1 low-stage gather-and-distribute branch

分为:对齐,融合,注入三步
在这里插入图片描述

  • 用PSP对齐不同尺度的特征
  • 再用conv,RepConv进行特征融合
  • 最后用split分类两个特征用于同B3,B4融合
  • 注入:采用注意力机制。具体的实现:
    在这里插入图片描述

2.2 High-stage gather-and-distribute branch

在这里插入图片描述

  • 特征融合用transformer来做了。

2.3 增强的特征插入模块

在这里插入图片描述
不用原始的特征,而是用多尺度融合后的特征。

2.4 MIM预训练

采用Spark的预训练方式。在ImageNet 1K上预训练了我们模型的主干网络,用于多个Gold-YOLO模型,并取得了显著的改进。

3 实验

3.1 Low-GD, High-GD模块作用

在这里插入图片描述
1:说明了Low-GD,低层特征对小目标的作用
2:说明High-GD, 高层特征对大目标的作用

3.2 预训练MIM的作用

采用预训练之后能带来1个点左右的提升
在这里插入图片描述


http://www.niftyadmin.cn/n/5053033.html

相关文章

主要文档分享网站一览

136****0621的全部文档-第1页-原创力文档 目前能提供上传文档并付费的网站: 1、得利文库 www.deliwenku.com 先说我自已的吧!见笑了 2、百度文库 wenku.baidu.com 这个算头部了、有流量倾斜、但资源多、用户现在上传的大部份为重复的,…

QFrame类学习笔记

1、QFrame的作用 QFrame类继承于QWidget类,被QAbstractScrollArea, QLabel, QLCDNumber, QSplitter, QStackedWidget, and QToolBox等类继承。 QFrame作为许多基础控件的基类,提供许多成员方法给子类,实现子类的框架样式的设计。框架样式主要…

redis中集合的相关命令

命令格式说明saddsadd key member [merbers…]添加成员到key所在的集合中scardscard key获取集合中元素的个数sdiffsdiff key [key…]返回第一个集合与后序集合的差集sdiffstoresdiffstore destination key [key…]将key集合与后序集合的差集放到集合destination中sintersinter…

logback日志框架学习(2)logback的构造

官网 https://logback.qos.ch/manual/architecture.html Logback构造 Logback’s basic architecture is sufficiently generic so as to apply under different circumstances. At the present time, logback is divided into three modules, logback-core, logback-classic…

Windows 下 MySQL 8.1.0 安装及配置图文指南,快速搭建实验学习环境

目录 下载 MySQL安装 MySQL配置 MySQL修改密码配置环境变量 卸载 MySQL开源项目微服务商城项目前后端分离项目 下载 MySQL 访问 MySQL 下载地址:https://dev.mysql.com/downloads/mysql/ 下载 MySQL 时,你可以选择 ZIP 包或 MSI 安装: ZIP包…

Using ‘C:\Users\administ\AppData\Local\ASP.NET\DataProtection-Keys‘ as ke

背景: C# .net core 独立部署得时候 双击启动没问题,开机自启报 Local\ASP.NET\DataProtection-Keys .......... 解决: 开机自启 目录请指向快捷方式 不要指向应用程序

idea 2021.2.3版本中隐藏target和.iml文件问题的解决

一 idea2021.2.3 版本隐藏文件 1.1 问题描述 添加隐藏文件内容后:没有可确定的保存按钮。无法实现添加隐藏文件。 1.2 解决办法 IDEA新建项目会自动生成一个.idea文件夹和.iml文件,开发中不需要对这两个文件修改,所以对以上文件进行隐藏处理…

WPF Frame content binding page(Using MVVM)

前言 这个binding问题困扰了我几天时间了,弄了好的demo试了又试。之前老是认为是ItemsControl中数据模版DataTemplate中绑定Command问题,根据测试没问题。一直在考虑是否是绑定DataContext对象没指明同一个上下文对象问题。最后在MainWindow.xaml文件中F…