目标检测训练技巧集锦（论文笔记）

发表于 2019-02-22 更新于 2024-10-14 分类于论文笔记

论文《Bag of Freebies for Training Object Detection Neural Networks》的阅读笔记。罗列用于提升目标检测训练效果的一系列技巧。

Bag of Freebies for Training Object Detection Neural Networks

紧接着上次那篇用于CNN图像分类的技巧集锦论文《Bag of Tricks for Image Classification with Convolutional Neural Networks》，这是AWS出的第二篇关于深度学习神经网络训练的炼丹技巧的论文。

与上次关注的图像分类领域不同，这篇论文聚焦于目标检测领域。不同于较为通用的图像分类（简单来说就是Backbone特征提取的事情），目标检测更加复杂（检测目标不同，优化的策略和目标也不同）。

作者做的事情就是通过调研最近的发表的文献，并进行实验，总结出一些可用于目标检测领域的训练技巧（这些技巧通常是无关检测目标的技巧，因此具有较高的通用性）。

论文题目中的Bag of Freebies指的就是这些方法都是不涉及网络框架的训练技巧，比如图像扩增，学习率设置等，因此在提升检测精度的情况下，不需要牺牲推理时间。

下面就是论文中提出的一些方法。

[1]: https://zhuanlan.zhihu.com/p/56700862 “亚马逊提出：目标检测训练秘籍（代码已开源）”

两类数据增广手段。
1. 随机几何变换：
  1. 随机裁剪（带约束）
  2. 随机扩展
  3. 随机水平翻转
  4. 随机缩放（带随机插值）
2. 随机颜色抖动：包括亮度、色调、饱和度和对比度。
需要注意的是作者根据两类目标检测框架去讨论
1. one-stage 目标检测，如YOLOv3，则几何变换和颜色抖动都可以添加。
2. two-stage 目标检测，如Faster-RCNN，由于RPN过程中存在采样过程，在特征图上有着重复的操作，取代了随机裁剪，因此对于two-stage的检测器，在数据集上不需要几何上的数据增广。

关于学习率的设置，通常是步进调整策略（step schedule）。即设定的一个base learning rate，每隔K个迭代，按照比例缩小learning rate。step schedule的缺点就在于：

基于以上两者，分别有Cosine schdule（余弦策略）和Warm up（预热策略）。这两种其实都是常见的优化方式，就不具体介绍了，用下图来表示，红线就是warm up + cosine schedule的结合：
warmup+cos

这里讲的就是Batch Normalization在跨卡训练时的作用。

一种数据增广手段（其实并没有，只是改变了输入图像分辨率）
通常single stage的训练为了限制内存，会使用固定大小的图像，即对数据集中的图像缩放成固定的大小进行训练。
为了减小过拟合，增加网络泛化性能。作者的做法是将同一个Batch的图像调整为$Nx3xHxW$，其中$H和W$是从一个数字序列中随机选择的。比如在YOLOv3中，$H=W \in \lbrace 320,352,384,416,448,480,512,544,576,608\rbrace$ ，每个Batch从这组序列中随机选一个进行训练。

实验结果就不贴了，对自己的训练帮助能有多大还是得上手测试一下。

参考文章列表：