yolo改进

论文题目：Assisted Excitation of Activations: A Learning Technique to Improve Object Detectors（CVPR2019）
论文下载: 点击下载

摘要：
在训练过程中，加入定位信息。可是提升yolov2 map 3.8个点， yolov3 map 2.2个点。这个方法适用于大多数single-stage 目标检测器。只改变了训练过程，推断过程没有任何改变。

Introduction:
yolo难以解决得两个痛点：
a. difficulty in localization
原因：因为yolo同时做分类和定位，最后一层卷积层，更多语义信息，对分类有益。但是spatially course for localization.
b. 训练时，前景与背景类别不平衡
原因：不同于two-stage 检测器，没有预先减少候选框搜索空间到一个受限制的数目。大多数是简单的负样本。

Related Work:

加入辅助信息到CNN，主要分类两类：

1.同时做检测和分割，提升两个任务的表现。

2.只加入segmentation features来提高检测的精度。

本文提出的方法，在训练检测器时加入weak segmentation ground-truth(即bounding box，从而避免单独引入分割标注，更加简单),并没有增加额外的损失函数。

如上图所示，只在训练时增加了一个Assisted Excitation层。

具体过程：

最终期望的生成特征如下，其中alpha是关于时间的函数用于控制训练中的强度衰减，l+1代表第l+1层，式中c为通道数，e是增强特征：

bbox内的像素位置为1，生成一个0-1mask。可见只在bbox内的区域做增强：

增强是按照通道去平均等量加上去的（作者的实验证明该效果最好）：

实验结果：

从上左边的图可以看到，AE强化过的网络有全面的提升，其中在大尺度上的提升更加明显，推测原因是：大物体上加了分割强化后能够获得更强的辨认度，小物体由于本身尺度不大所以增加后也不明显。结果而言印证了这种强化的有效性，但是也完全地陷入了小目标检测的弊端了--像素内容少而被忽视。

右图的信息不太好辨认。先看yolov2的曲线来说，低iou阈值能够得到更高的改进的精度，说明其召回更好了，但是精度一高就趋于重合，改进失效，说明这种增强提高了低质量bbox的精度。再看yolov3，全IoU都有少量的提高，但是不特别大且没有明显的趋势，说明其采用的多尺度预测能一定程度地解决问题，并在其基础上能对全部精度都有增益。

yolo改进

评论区