论文解读：YOLOv3

从这篇文章的写作风格可以看出，Joseph 这人是个幽默的老哥。。。

摘要

作者对YOLOv2进行了一些改进，使之在保持实时检测的同时，准确率又有所提升了。

介绍

作者说他这一年（18年）基本没干啥，就是打打电话，玩玩推特，偶尔还帮别人干点活。。

然后因为只对YOLO做了一些改进，但是并没什么特别有意思的地方，因此就写了这一篇技术报告。

The Deal

作者说他们大部分的工作都是从别人那里吸取好的点子，同时训练了一个新的分类器网络（比别人的好，恩。。）

Bounding Box Prediction

和YOLO9000一样，在预测bounding box时使用了dimension clusters和anchor boxes。

YOLOv3在预测每个bouding box的objectness score时，使用的是logistic regression。

与faster rcnn不同的是，我们的系统只会给每个gt object指派一个bounding box。如果没有指派的话，就说明没有对象的box坐标，只有objectness。

Class Prediction

每个box使用了多标签分类，我们不选择softmax是因为发现它很难取得好的效果，因此，改用一个单独的logistic classifiers。在训练阶段，使用binary cross-entropy loss来进行类别预测。

Predictions Across Scales

YOLOv3在三种不同的scales下进行预测。

Feature Extractor

作者使用了一个新的网络模型来提取特征，主要是在Darknet-19中引入了residual network stuff，最终模型的卷积层数达到53层，也就是Darknet-53。

Training

仍然使用不带hard negative mining的图片训练。同时使用了multi-scale training，data augmentation，batch normalization，以及其他的一些标准程序。

How We Do

根据不同的评价标准，YOLO的性能差异较大，总的来说主要是因为YOLO虽然能标出物体的大致位置，但是画出的框并不是“完美”，使得在IOU要求高的评价标准上，YOLO的得分很低。

另外，之前的YOLO在检测小物体上往往有很多瓶颈，而目前的YOLO已经在慢慢克服这方面的缺陷

Things We Tried That Didn’t Work

Anchor box $x,y$ offset predictions
Linear $x,y$ predictions instread of logistic
Focal loss
Dual IOU thresholds and truth assignment

What This All means

最后，作者讨论了一下为什么要选择其他的评价标准。

大意是，对于人类来讲，很难直接区分出IOU0.3和IOU0.5之间的差别，那么我们要求计算机这样做是否合理呢（我认为是合理的。。。）

后面作者说出了对计算机视觉未来发展的一些“愿景”。（作者反对隐私泄漏和军事用途）

论文解读：YOLOv3

摘要

介绍

The Deal

Bounding Box Prediction

Class Prediction

Predictions Across Scales

Feature Extractor

Training

How We Do

Things We Tried That Didn’t Work

What This All means

相关文章

快速小目标检测--Feature-Fused SSD: Fast Detection for Small Objects

hexo server 报错ENOSPC Error / FATAL

hexo next主题站内搜索出现异常，无法正常跳转，跳转时出现异常

Chinese Text in the Wild 学习笔记

CUDA示例学习：HelloCUDA

[开源代码与数据集]文字检测与识别

【自然语言处理】TF-IDF算法提取关键词

Hexo 在subtile和description中实现换行