深度学习(24)——YOLO系列(3)

news/2024/7/11 0:02:16 标签: 深度学习, YOLO, 人工智能

YOLO3_0">深度学习(24)——YOLO系列(3)

文章目录

  • 深度学习(24)——YOLO系列(3)
    • 1. BOF(bag of freebies)
    • 2. Mosaic data augmentation
    • 3. 数据增强
    • 4. self-adversarial-training(SAT)
    • 5. dropblock
    • 6. label smoothing
    • 7. 损失函数
      • a. IOU损失
      • b.GIOU
      • c. DIOU
      • d.CIOU
    • 8. SPPNet(spatial pyramid pooling)
    • 9. CSPNet(cross stage partial network)【更快】
    • 10.CBAM & SAM
    • 11.YOLO中的attention链接机制
    • 12. PAN
    • 13. PAN的连接方式
    • 14. 激活函数
    • 15. 网络结构
    • 16.优点

今天YOLOv4理论版

1. BOF(bag of freebies)

  • 只增强训练成本,但是能显著提高精度,但是不影响推理速度
  • 数据增强:调整亮度,对比度,色调,随机缩放…
  • 网络正则化的方法:dropout,dropblock
  • 类别不平衡——>损失函数设计

2. Mosaic data augmentation

  • 参考cutmix,以前就存在,将增强的四张图像拼接在一张进行训练(相当于间接增加batch)
    在这里插入图片描述

3. 数据增强

  • random erase:随机遮挡或擦除
  • hide and seek:根据概率随机隐藏补丁

4. self-adversarial-training(SAT)

  • 在原始图像中增加噪音点干扰
    在这里插入图片描述

5. dropblock

dropout是随机选择一些点遮住(游戏难度增加不大),dropblock现在遮住一个区域(游戏难度增大)
在这里插入图片描述

6. label smoothing

  • 神经网络最大的缺点,标签绝对,容易过拟合
  • 使用之后,簇内更紧密,簇间更分离

7. 损失函数

a. IOU损失

  • 相同的IOU却反映不出实际情况到底是怎么样的
  • 当交集为0时,没有梯度无法计算(梯度消失)

b.GIOU

在这里插入图片描述

  • 引入最小封闭框C(C可以把A,B包含在内)
  • 在不重叠的情况下可以使预测框尽可能靠近真实框
  • 解决了梯度下降的问题,但是重叠的时候失灵

c. DIOU

在这里插入图片描述

  • 附加项的分子项:预测框与真实框中心点的欧氏距离
  • 附加项的分母项:最小封闭框的对角线长度C
  • 直接优化距离,速度更快,并解决GIOU

d.CIOU

在这里插入图片描述

  • 考虑三个几何因素:

    • 重叠面积
    • 中心点距离
    • 长宽比(v)

8. SPPNet(spatial pyramid pooling)

  • 为了更好满足不同输入大小,训练的时候要改变输入数据的大小
  • SPP其实就是用最大池化来满足最终输入特征一致即可

9. CSPNet(cross stage partial network)【更快】

在这里插入图片描述

  • 每个block 按照特征图的channel维度拆分成两部分
  • 一份正常走网络,另一份直接concat到这个block的输出

10.CBAM & SAM

在这里插入图片描述
在这里插入图片描述

  • 计算量太大!所以在V4中,引入SAM ,没有channel之间的attention,只有spatial空间attention(attention可以让模型更好学习特征)

YOLOattention_61">11.YOLO中的attention链接机制

在这里插入图片描述

12. PAN

  • FPN是自顶向下的模式,将高层特征传下来,高层逐层向下兼容下层(单向)
  • 缺少底层到高层,PAN登场
  • 引入自底向上的路径,使得底层信息更容易传到顶部
  • 还是一个捷径,红色的可能要走100+层,绿色只需要几层就OK
    在这里插入图片描述

13. PAN的连接方式

在这里插入图片描述

14. 激活函数

在这里插入图片描述

15. 网络结构

在这里插入图片描述

16.优点

  • 使用单个GPU就可以训练很好
  • 量大核心方法:数据层面+网络层面
  • 消融实验
  • 速度快,性能高!

http://www.niftyadmin.cn/n/456798.html

相关文章

flink- mysql同步数据至starrocks-2.5.0之环境搭建

flink- mysql同步数据至starrocks-2.5.0之环境搭建 一般需要以下几个服务: mysqlflink flink-taskmanagerflink-jobmanager starrocks starrocks-festarrocks-be docker-compose.yml 配置文件 version: "3.3" services:starrocks-fe:image: starrocks/fe-ubuntu…

线程与轻进程(OS)

目录 1、进程的引入 2、线程的概念 3、线程的结构 3、线程控制块 5、线程的实现 (1)用户级别线程 (2)核心级别线程 (3)混合线程 6、线程的应用 1、进程的引入 进程切换 上下文涉及内容多&#xf…

VC++ 线程同步之信号量(Semaphore)

VC 线程同步之信号量(Semaphore) 信号量与互斥量类似,唯一的区别是多个对象可持有信号量的所有权。假设有一个复杂的数学运算要用到整个逻辑 CPU 核。如果每个核只运行一个线程,计算结果没问题,但是,如果…

Qt/C++使用QUiLoader动态加载ui资源文件

目录 动态对话框使用场景注意事项动态对话框加载获取动态对话框的控件对象与动态对话框建立关联动态修改ui资源文件效果测试 动态对话框 动态对话框(dynamic dialog)就是在程序运行时使用的从Qt设计师的.ui文件创建而来的那些对话框。动态对话框不需要通过uic把 .ui文件转换成…

软件工程基础速通教程(北京理工大学)

文章目录 前言软工上课情况考后感题型分析概念部分大题部分数据流图和数据字典数据流图数据字典 结构化设计工具程序流程图盒图(N-S图)PAD图判定表和判定树PDL(伪码) 软件测试白盒测试法语句覆盖判定覆盖,条件覆盖&…

Python高级系列教程:Python闭包和装饰器

今天我们将继续讲解 Python 中的闭包和装饰器。虽然我们还没有详细学习这两个概念,但在面向对象编程中,我们已经经常使用装饰器了。装饰器可以给函数增加额外的功能,就像语法糖一样甜。在 Python 中,装饰器的格式通常是在函数上方…

简要介绍 | 图像聚类:概念、原理与方法

注1:本文系“简要介绍”系列之一,仅从概念上对图像聚类进行非常简要的介绍,不适合用于深入和详细的了解。 图像聚类:概念、原理与方法 Cluster Analysis | NVIDIA Developer 1. 背景介绍 图像聚类(Image Clustering&a…

Ubuntu Nvidia Failed to initialize NVML: Driver/library version mismatch 解决方案

一、nvidia显卡驱动丢失 现象: 执行nvidia-smi报错 原因: NVIDIA 内核版本与系统驱动版本不适配,Ubuntu自动将nvidia的驱动从525.105更新到了525.116 如下图 注:当使用 apt-get 命令时,默认会将所有需要更新的包都下…