【AI】YOLO学习笔记

news/2024/7/10 22:43:38 标签: 人工智能, YOLO, 学习

作为经典的图像识别网络模型,学习YOLO的过程也是了解图像识别的发展过程,对于初学者来说,也可以了解所采用算法的来龙去脉,构建解决问题的思路。

YOLO_V1_1">1.YOLO V1

论文地址:https://arxiv.org/abs/1506.02640

YOLO(You Only Look Once)是一种基于深度神经网络的对象识别和定位算法,其最大的特点是运行速度很快,可以用于实时系统。YOLO V1不同于之前模型的特点是:创造性的将候选区和对象识别这两个阶段合二为一,所以速度是它优于其他模型的点。
YOLO 网络模型
在这里插入图片描述
YOLO并没有真正去掉候选区,而是采用了预定义的预测区。也就是将图片划分为 7*7=49 个网格(grid),每个网格允许预测出2个边框(bounding box,包含某个对象的矩形框)。
模型的输入为448*448*3的图像,最后输出的是7*7*30的tensor,7*7是网格的大小,后面的30则是有两部分组成,前10位是描述的两个bounding box,分别是x,y,h,w,c,xy是中心点的位置,wh是预选框的宽度和高度,c是预选框的置信度;后20位是代表方框所属类别的概率。为了达成这种30位的输出层效果,我们需要通过损失函数来对模型进行限制。

在这里插入图片描述
NMS 非极大值抑制
简单来说,每个物体只保留最准确(置信度最高)的一个矩形框,其余的全删除。
YOLO采用重叠度的方式来进行筛选:
将候选框按照置信度排序,依次计算两个候选框的重叠度,当重叠度大于我们设定的阈值时,则丢弃置信度较小的候选框,从而达到减少候选框的目的。

IoU= 并集面积/交集面积​ = union_area/intersection_area

YOLO_V2_18">2.YOLO V2

YOLO V2的改进:

  • Batch Normalization
    V2版本舍弃Dropout,卷积后全部加入Batch Normalization,
    网络的每一层的输入都做了归一化,收敛相对更容易

  • 更大的分辨率
    V1训练时用的是224*224,测试时使用448*448,
    V2训练时额外又进行了10次448*448 的微调

  • 网络结构
    采用Darknet网络模型;去掉了FC层,全部采用卷积层;经过5次降采样,最后的输出为13*13的网格,5次降采样每次降为原来的一半,所以最出的输入是416*416,即便需要自己修改输入数据的大小,也要确保是32的倍数。
    采用1*1的卷积,减少计算量;

  • 聚类提取先验框
    k-means聚类中采用的距离为1-IOU;

  • Anchor Box
    通过引入anchor boxes,使得预测的box数量更多(13*13*n)

  • Directed Location Prediction
    V2中并没有直接使用偏移量,而是选择相对grid cell的偏移量

  • 感受野
    采用多层卷积,感受野更大


http://www.niftyadmin.cn/n/5269076.html

相关文章

AR游戏开发

增强现实(Augmented Reality,AR)游戏是一种整合了虚拟和现实元素的游戏体验。玩家通过使用AR设备(如智能手机、AR眼镜或平板电脑)来与真实世界互动,游戏中的数字内容与真实环境相结合。以下是一些关于AR游戏…

第4章-第3节-Java中跟数组相关的几个算法以及综合应用

在写这篇博文之前,先大概说明一下,就是很常见的数组算法如求最大值、一维数组的遍历等,这里就不去专门说明了,只说一些有代表性的,然后就是冒泡排序算法很容易查阅到,这里也不专门说明了,只说明…

ChatGPT4 Excel 高级组合函数用法index+match完成实际需求

在Excel 函数用法中有一对组合函数使用是非常多的,那就是Index+match组合函数。 接下来我们用一个实际的需求让ChatGPT来帮我们实现一下。 我们给ChatGPT4发送一个prompt:有一个表格A2至A14为业务员B列至H列为1月至7月的销售额,请根据J2单元格的业务员与K2单元格的月份查找出…

18个非技术面试题

请你自我介绍一下你自己? 这道面试题是大家在以后面试过程中会常被问到的,那么我们被问到之后,该如果回答呢?是说姓名?年龄?还是其他什么? 最佳回答提示: 一般人回答这个问题往往会…

Linux: network:tcp: option: TCP_INFO

https://www.man7.org/linux/man-pages/man7/tcp.7.html https://www.man7.org/linux/man-pages/man8/ss.8.html 从TCP的使用手册上看,这个选项的作用是返回一个结构体数据。2.4 就引入了,其实大家可以用起来这个选项。 TCP_INFO (since Linux 2.4) Used to collect informa…

Android studio中文汉化教程

相比于jetbrains的软件直接在软件内搜索chinese 就可以找到中文包相比,Android studio需要手动安装,接下来就给大家介绍下如何汉化 一、确认版本号 根据版本下载对应的中文汉化包,如果安装的汉化包版本不对应,可能会导致安装失败。…

uniapp websocket 消息队列 例子

UniApp的localStorage可以用来存储和读取数据,但它本身并不是一个消息队列。消息队列是一种用于在应用程序之间传递消息的技术,它具有特定的特性,如消息的持久化、消息的顺序性、消息的消费等。 如果你想在UniApp中实现类似消息队列的功能&a…

C语言刷题每日一题——求1到100中包含数字9的整数的个数

思路分析 创建一个变量count记录个数使用一个for循环完成从1到100的循环每次循环判断该数字是否包含数字9——第一种情况 :个位包含9,即求模10的结果为9 ;第二种情况:十位包含9,即除以10的结果为9(两种情况…