论文解读:YOLOv3

news/2024/7/10 22:59:27 标签: YOLO, 目标检测

从这篇文章的写作风格可以看出,Joseph 这人是个幽默的老哥。。。

摘要

作者对YOLOv2进行了一些改进,使之在保持实时检测的同时,准确率又有所提升了。

介绍

作者说他这一年(18年)基本没干啥,就是打打电话,玩玩推特,偶尔还帮别人干点活。。

然后因为只对YOLO做了一些改进,但是并没什么特别有意思的地方,因此就写了这一篇技术报告。

The Deal

作者说他们大部分的工作都是从别人那里吸取好的点子,同时训练了一个新的分类器网络(比别人的好,恩。。)

Bounding Box Prediction

YOLO9000一样,在预测bounding box时使用了dimension clusters和anchor boxes。

YOLOv3在预测每个bouding box的objectness score时,使用的是logistic regression。

与faster rcnn不同的是,我们的系统只会给每个gt object指派一个bounding box。如果没有指派的话,就说明没有对象的box坐标,只有objectness。

Class Prediction

每个box使用了多标签分类,我们不选择softmax是因为发现它很难取得好的效果,因此,改用一个单独的logistic classifiers。在训练阶段,使用binary cross-entropy loss来进行类别预测。

Predictions Across Scales

YOLOv3在三种不同的scales下进行预测。

Feature Extractor

作者使用了一个新的网络模型来提取特征,主要是在Darknet-19中引入了residual network stuff,最终模型的卷积层数达到53层,也就是Darknet-53。

Training

仍然使用不带hard negative mining的图片训练。同时使用了multi-scale training,data augmentation,batch normalization,以及其他的一些标准程序。

How We Do

根据不同的评价标准,YOLO的性能差异较大,总的来说主要是因为YOLO虽然能标出物体的大致位置,但是画出的框并不是“完美”,使得在IOU要求高的评价标准上,YOLO的得分很低。

另外, 之前的YOLO在检测小物体上往往有很多瓶颈,而目前的YOLO已经在慢慢克服这方面的缺陷

Things We Tried That Didn’t Work

  1. Anchor box x,y x , y offset predictions
  2. Linear x,y x , y predictions instread of logistic
  3. Focal loss
  4. Dual IOU thresholds and truth assignment

What This All means

最后,作者讨论了一下为什么要选择其他的评价标准。

大意是,对于人类来讲,很难直接区分出IOU0.3和IOU0.5之间的差别,那么我们要求计算机这样做是否合理呢(我认为是合理的。。。)

后面作者说出了对计算机视觉未来发展的一些“愿景”。(作者反对隐私泄漏和军事用途)


http://www.niftyadmin.cn/n/1016590.html

相关文章

快速小目标检测--Feature-Fused SSD: Fast Detection for Small Objects

Feature-Fused SSD: Fast Detection for Small Objects 本文针对小目标检测问题,对 SSD 模型进行了一个小的改进,将 contextual information 引入到 SSD 中 帮助SSD检测小目标。 contextual information 对于小目标的检测 重要性是不言而喻的。小目标在…

hexo server 报错ENOSPC Error / FATAL

如果运行hexo server 指令时,报错Error: watch ... ENOSPC ... ,那么可以通过下面的指令解决: $ npm dedupe 如果上面的指令无效的话,可以再用下面这条指令: $ echo fs.inotify.max_user_watches524288 | sudo tee …

hexo next主题 站内搜索出现异常,无法正常跳转,跳转时出现异常

主要看看跳转后的url是什么,如果url异常,就需要在站点配置文件(注意不是主题配置文件)下面看看你的url和永久链接设置的是否正确。如下所示: # URL ## If your site is put in a subdirectory, set url as http://you…

Chinese Text in the Wild 学习笔记

CTW数据集下载地址: CTW dataset Download from one of the following links. 腾讯微云https://share.weiyun.com/50hF1Cc OneDrivehttps://1drv.ms/f/s!Al-inEPeCzeQgZdCYHvL_Z7-l3bROQ 介绍 在本文中,我们用自然图像中包含的文字创建了一个大型数…

CUDA示例学习:HelloCUDA

//hellocuda.cu #include <iostream> #include "stdio.h"__global__ void kernel(void){printf("hello, cvudakernel\n");}int main(void){kernel<<<1,5>>>();cudaDeviceReset();return 0 ; }在命令行执行 $nvcc hellocuda.cu -o…

[开源代码与数据集]文字检测与识别

原文链接&#xff1a;http://valser.org/thread-1200-1-1.html 下面有些链接好像无法访问&#xff0c;先存着在说吧~ 端到端场景文本识别 M. Liao, B. Shi, X. Bai, X. Wang, W. Liu. TextBoxes: A fast text detector with a single deep neural network. In: Proceedings …

【自然语言处理】TF-IDF算法提取关键词

自然语言处理——TF-IDF算法提取关键词 这个标题看上去好像很复杂&#xff0c;其实我要谈的是一个很简单的问题。 有一篇很长的文章&#xff0c;我要用计算机提取它的关键词&#xff08;Automatic Keyphrase extraction&#xff09;&#xff0c;完全不加以人工干预&#xff0…

Hexo 在subtile和description中实现换行

如下所示&#xff0c;用双引号括起来&#xff0c;同时实现<br>即可达到换行目的 # Site title: "LEOS NOTE" # 标题 subtitle: "心有猛虎 | 细嗅蔷薇" # 副标题 description: "Stay Hungry.<br>Stay Foolish." # 简介&#xff0…