YOLO系列理论合集(YOLOv1~v3SPP)

news/2024/7/10 22:43:11 标签: YOLO, 深度学习, 计算机视觉

前言：学习自霹雳吧啦Wz

YOLOV1

论文思想

1、将一幅图像分成SxS个网格(grid cell),如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。

2、每个网格要预测B个bounding box，每个bounding box除了要预测位置（x，y，w，h）之外，还要附带预测一个confidence值。每个网格还要预测C个类别的分数。因此对于PASCAL VOC（20个类别），使用S = 7，B = 2，每个网格有5（x，y，w，h，confidence）x 2（两个网格）+20（类别）= 30个预测结果，因此一张图像有7 x 7 x 30个tensor。

4、预测位置x，y，w，h。x，y的位置是相对于网格而言的。w，h是相对于整张图像而言的。

5、置信度confidence。定义为，式中的第一项为bounding box内存在物体的概率，第二项为预测框和真实框的IOU。在测试时，每个物体的概率就为C个类别分数 x confidence，如下。

网络结构

损失函数

存在的问题

1、当小目标聚集在一起的时候，检测效果很差，例如一群鸟。原因是，每个网格只预测一个类别。

2、当目标出现新的尺寸的时候，检测效果很差。

3、定位不准确，原因是，yolov1是直接预测目标的位置，而不是基于anchor预测目标的回归参数，因此yolov2中采用了基于anchor预测目标的回归参数的方法。（题外话，Faster-RCNN和SSD也是采用基于anchor预测目标的回归参数的方法）。

YOLOV2

对yolov1的改进之处

Batch Normalization

1、加速网络收敛，避免梯度消失爆炸。

2、有利于模型的正则化，可以移除dropout的使用。

3、提高模型的泛化能力， BN通过使每个层输入的分布标准化，有助于提高模型的泛化能力。

High Resolution Classifier

采用更高分辨率的分类器（448 x 448）。

Convolutional With Anchor Boxes

采用基于anchor偏移的预测方式，简化目标边界框预测的问题，使用网络更容易收敛。使用这种方式使预测的召回率更高。

Dimension Clusters

根据k-means聚类的方法去计算anchors的尺寸。

Direct location prediction

使用sigmoid函数对预测值tx，ty进行限制，使其不会飘出中心网格之外。公式如下。

Fine-Grained Features

底层特征下采样与高层特征相融合，如图。

下采样方式，如图。

Multi-Scale Training

我们每隔几次迭代就改变输入图像的大小。每10个epoch我们的网络随机选择一个新的图像尺寸大小。由于我们的模型将样本降为32的倍数，我们从32的倍数中提取:{320,352，…, 608}，因此，最小的选项是320 x 320，最大的是608 x 608，我们将网络调整到该维度并继续训练

主干网络Darknet19（19个卷积层）

网络结构如下。

YOLOV3

主干网络Darknet-53

1、网络结构如下。

2、Darknet-53与Resnet网络的对比如下。

可以看到，虽然Darknet-53的网络深度比ResNet-152更深，但Darknet-53的检测速度是ResNet-152的两倍，并且检测精度相差无几。

优势原因：

第一，Darknet53使用池化层替代了卷积层，减少了信息的损失，因此检测精度较好。

第二，相对于Resnet152，Darknet53的卷积核个数更少，参数更少，因此计算量更少，检测速度更快。

yolov3的网络结构

目标边界框的预测

和yolov2是一样的。

正负样本的匹配

和SSD的匹配方式相同。

损失的计算

1、置信度损失

2、类别损失

3、定位损失

YOLOV3SPP

Mosaic图像增强

优点：增加数据的多样性，增加目标个数，BN能一次性统计多张图片的参数。

SPP模块

结构如下。

SSP模块在yolov3网络中的位置如下。

IOU DIOU CIOU

IOU LOSS

优点：1.能够更好的反应重合程度 2.具有尺度不变性。
缺点：1.当不相交时loss为0。

DIOU LOSS

GIOU LOSS

Focal loss

交叉熵损失

交叉熵损失：

令

则有

Focal loss

1、主要思想

减小对于大多数容易分类的样本的loss，增大对于难以分类的样本的loss。

较难区分的样本是指：当检测目标为正样本时，目标概率却较小。或者，当检测目标为负样本时，目标概率却较大。

2、公式推理

对于表达式可知，当样本较难区分时，Pt 较小。当样本较容易区分时，Pt 较大。
因此我们要使Pt 较小时，loss较大，Pt 较大时，loss较小。于是可以得到损失公式：
加上平衡因子，得到最终的Focal loss公式：

3、注意的点

Focal loss容易受到噪声的干扰。

http://www.niftyadmin.cn/n/402748.html

相关文章

Office Visio 2019安装教程

Office Visio 2019安装教程

哈喽，大家好。今天一起学习的是Visio 2019的安装，这是一个绘制流程图的软件，用有效的绘图表达信息，比任何文字都更加形象和直观。Office Visio 是office软件系列中负责绘制流程图和示意图的软件，便于IT和商务人员就复杂…

阅读更多...

c++函数重载与运算符重载基础

c++函数重载与运算符重载基础

什么是重载重载，简单说，就是函数或者方法有相同的名称，但是参数列表不相同的情形，这样的同名不同参数的函数或者方法之间，互相称之为重载函数或者方法。重载的作用：重载函数常用来实现功能类似而所处理的…

阅读更多...

JS bind方法

JS bind方法

bind 是 JavaScript 中的一个函数方法，它可以用来绑定函数的 this 值和参数，返回一个新的函数。其语法为： function.bind(thisArg[, arg1[, arg2[, ...]]])其中，thisArg 表示要绑定的 this 值，arg1、arg2 等表示要绑定…

阅读更多...

win10下载安装mysql8.0版本

win10下载安装mysql8.0版本

打开官网下载：https://dev.mysql.com/downloads/mysql/ 下载完成后解压，这里我是直接放在C盘然后打开mysql目录文件夹新建my.ini文件,my.ini文件内容如下，需要修改两个地方，其中datadir你自己的mysql的安装目录，data…

阅读更多...

C++ 中结构体声明（定义）以及不同写法的差异

C++ 中结构体声明（定义）以及不同写法的差异

定义方式总结在C中，结构体（struct）的定义主要有多种形式，，你还可以在定义结构体时直接初始化它的成员，或者在定义后创建结构体的实例。以下是一些例子： 定义并初始化结构体： str…

阅读更多...

Cookie和Session原理详解

Cookie和Session原理详解

目录前言 Cookie Session 会话机制 Cookie和Session的区别 Servlet中对Session和Cookie的封装代码实例：实现用户登录约定前后端交互的接口前端页面： 后端实现 login index 总结前言在web的发展史中，我们知道浏览器和服务…

阅读更多...

JS中的非可变性

JS中的非可变性

什么是非可变性？（Immutability） 如果用非可变性来形容一个对象，对么这个对象的特点是：这个对象在创建之后不会被修改。JS中很多值是非可变的，例如： var statement "I am an immutable v…

阅读更多...

chatgpt赋能python：Python如何分段数据的平均数

chatgpt赋能python：Python如何分段数据的平均数

Python如何分段数据的平均数 Python是一门极其流行的编程语言，广泛应用于数据分析与科学计算领域。在数据分析中，计算各个数据段的平均数是一项常见的任务。本文将介绍如何使用Python分段计算数据的平均数，以及如何优化这一过程以使速度更快…

阅读更多...

最新文章