目标检测-One Stage-YOLOv1

news/2024/7/10 23:26:10 标签: 目标检测, YOLO, 人工智能, 计算机视觉, 算法

文章目录

  • 前言
  • 一、YOLOv1的网络结构和流程
  • 二、YOLOv1的损失函数
  • 三、YOLOv1的创新点
  • 总结


前言

前文目标检测-Two Stage-Mask RCNN提到了Two Stage算法的局限性:

  • 速度上并不能满足实时的要求

因此出现了新的One Stage算法簇,YOLOv1目标检测中One Stage方法的开山之作,不同于Two Stage需要先通过RPN网络得到候选区域的方法,YOLOv1将检测建模为一个回归问题,直接在整张图的特征图(Feature Map)上进行目标的定位和分类,因此速度比当时正红的Fast R-CNN快很多。而且,也正是因为YOLOv1看的是全局的信息,把背景误判成目标的错误率比只看候选区的Fast R-CNN低很多,但整体的准确率还是Fast R-CNN高。


提示:以下是本篇文章正文内容,下面内容可供参考

YOLOv1_16">一、YOLOv1的网络结构和流程

  1. 首先将输入图像划分成7 * 7的网格
  2. 使用ImageNet数据集(224大小)对前20层卷积网络进行预训练
  3. 使用PASCAL VOC数据集(448大小)对完整的网络进行对象识别和定位的训练
  4. 对于每个网格都预测2个边框(bounding box),即预测98(7 * 7 * 2)个目标窗口,输出7 * 7 * 2 * 30 的张量。

ps:最后一维为30,包含每个预测框的分类与位置信息:20个类别的概率+2个边框的置信度+2*4(2个边框的位置,每个边框4个参数:x_center, y_center, width, height)

  1. 根据上一步预测出98个目标窗口,使用非极大值抑制NMS去除冗余窗口
    在这里插入图片描述

ps:YOLOv1的最后一层采用线性激活函数,其它层都是Leaky ReLU。训练中采用了drop out和数据增强(data augmentation)来防止过拟合。

YOLOv1_27">二、YOLOv1的损失函数

在这里插入图片描述
可看出由5个部分组成:(真阳样本的中心定位误差、宽高误差、confidence误差),负样本confidence误差,正样本类别误差

  • 可以看到宽高误差先取了平方根,这样可以降低大小对象对差值敏感度的差异
  • 超参数 λ c o o r d = 5 , λ n o o b j = 0.5 \lambda_{coord}=5,\lambda_{noobj}=0.5 λcoord=5λnoobj=0.5,可看出真阳样本位置误差的权重较高,负样本置信度误差权重低

YOLOv1_33">三、YOLOv1的创新点

  1. 去除候选区模块,直接将目标检测任务转换成一个简单的回归问题,大大加快了检测的速度(45fps-155fps)
  2. 由于每个网络预测目标窗口时使用的是全图信息(图片的全局特征),使得false positive比例大幅降低(充分的上下文信息),precision较高

总结

尽管YOLOv1速度提升很多,但是精度较低:

  • 每个格子只能预测一个物体,对较小对象和密集型的物体检测不友好
  • 7 * 7的粗糙网格内对目标定位不够精准
  • 预训练时与实际训练时输入大小不一致,模型需要去适应这种分辨率的转换,会影响最终精度

http://www.niftyadmin.cn/n/5291828.html

相关文章

gitlab请求合并分支

直接去看原文: 原文链接:Gitlab合并请求相关流程_source branch target branch-CSDN博客 --------------------------------------------------------------------------------------------------------------------------------- 入口: 仓库控制台的这两个地方都…

Spring Boot学习随笔- Jasypt加密数据库用户名和密码以及解密

学习视频:【编程不良人】2021年SpringBoot最新最全教程 第十九章、Jasypt加密 Jasypt全称是Java Simplified Encryption,是一个开源项目。 Jasypt与Spring Boot集成,以便在应用程序的属性文件中加密敏感信息,然后在应用程序运行…

浅谈WPF之控件模板Control Template和数据模板Data Template

WPF不仅支持传统的Windows Forms编程的用户界面和用户体验设计,同时还推出了以模板为核心的新一代设计理念。在WPF中,通过引入模板,将数据和算法的“内容”和“形式”进行解耦。模板主要分为两大类:数据模板【Data Template】和控…

116基于matlab的盲源信号分离

基于matlab的盲源信号分离。FASTICA方法,能够很好的将信号解混,可以替换数据进行分析。具有GUI界面,可以很好的进行操作。程序已调通,可直接运行。 116matlab盲源信号分离FASTICA (xiaohongshu.com)

go 源码解读 - sync.Mutex

sync.Mutex mutex简介mutex 方法源码标志位获取锁LocklockSlowUnlock怎么 调度 goroutineruntime 方法 mutex简介 mutex 是 一种实现互斥的同步原语。(go-version 1.21) (还涉及到Go运行时的内部机制)mutex 方法 Lock() 方法用于…

STM32 学习(一)新建工程

本课程使用的stm32型号 引脚定义,有FT能接5v,没有FT能接3.3v 启动配置 第二种启动模式中,系统存储器中存放了一部分Bootloader程序,该程序可以接收串口的数据,然后刷新到主闪存中,这样就可以使用串口下载程…

web3方向产品调研

每次互联网形态的改变,都会对世界产生很大的影响,上一次对社会产生重大影响的互联网形态(Web2.0)催生了一批改变人类生活和信息交互方式的企业。 目录 概述DAO是什么?为什么我们需要DAO? 金融服务金融桥接及周边服务D…

边缘计算网关:在智慧储能系统中做好储能通信管家

背景 目前储能系统主要由储能单元和监控与调度管理单元组成,储能单元包含储能电池组(BA)、电池管理系统(BMS)、储能变流器(PCS)等;监控与调度管理单元包括中央控制系统(MGCC)、能量管理系统(EMS)等。 2021年8月,国家发改委发布《电化学储能…