本文共 1387 字,大约阅读时间需要 4 分钟。
目前最好的目标检测器大多通过特征金字塔来学习多尺度表示从而取得更高的检测精度。然而,当前特征金字塔的设计在如何整合不同尺度的语义信息方面仍然不够高效。为此,本文在调研当前主流特征金字塔方法的基础上把特征金字塔转换为特征的再组合过程,创造性地提出了一种高度非线性但是计算快速的结构将底层表示和高层语义特征进行整合。具体而言,该网络由两个模块组成:全局注意力和局部再组合。这两个模块分布能全局和局部地去在不同的空间和尺度上提取任务相关的特征。重要的是,这两个模块具有轻量级、可嵌入和可端到端训练的优点。在基于SSD的框架上,该模型取得里比原始模型及其他变体方法明显更好的检测精度,而且没有牺牲实时的处理速度。
论文里采用了Squeeze-and-Excitation Networks(ILSVRC 2017 image classification winner; CVPR 2018 Oral https://github.com/hujie-frank/SENet)中的SE结构
当前特征金字塔的设计在如何整合不同尺度的予以信息方面仍然不够高效
(当前特征金字塔的设计对不同层的语义信息的合并没有效率)对该问题做了如下的解决。
global attention里首先是squeeze,实现是 一个全局平均池化,然后是excitation阶段,实现是:两个全连接后接sigmoid 激活函数,第一个全连接后接relu函数,channel个数为c/16。第二个全连接的channel个数为c,然后再和X做channel-wise multiplication。caffe里用scale来实现。
上图使用残差连接,这个残差连接与ResNet的残差连接是由区别。
在ConvNet下构建特征金字塔表达的关键问题是重新配置和重用特征层次结构。 本文通过全局和局部转换来解决这个问题。 这种表示方式使我们可以为特定比例的目标显式建模特征重新配置过程。 我们进行了广泛的实验,以将我们的方法与其他特征金字塔变体进行比较。 我们的研究表明,尽管深层ConvNet具有很强的代表性,但仍有空间和潜力来构建更好的金字塔以进一步解决多尺度问题。
转载地址:http://bdxen.baihongyu.com/