SSD: Single Shot MultiBox Detector

前言

在YOLO 的文章中我们介绍到YOLO存在三个缺陷:

  1. 两个bounding box功能的重复降低了模型的精度;

  2. 全连接层的使用不仅使特征向量失去了位置信息,还产生了大量的参数,影响了算法的速度;

  3. 只使用顶层的特征向量使算法对于小尺寸物体的检测效果很差。

为了解决这些问题,SSD 应运而生。SSD的全称是Single Shot MultiBox Detector,Single Shot表示SSD是像YOLO一样的单次检测算法,MultiBox指SSD每次可以检测多个物体,Detector表示SSD是用来进行物体检测的。

针对YOLO的三个问题,SSD做出的改进如下:

  1. 使用了类似Faster R-CNN中RPN网络提出的锚点(Anchor)机制,增加了bounding box的多样性;

  2. 使用全卷积的网络结构,提升了SSD的速度;

  3. 使用网络中多个阶段的Feature Map,提升了特征多样性。

SSD的算法如图1。

图1:SSD算法流程

从某个角度讲,SSD和RPN的相似度也非常高,网络结构都是全卷积,都是采用了锚点进行采样,不同之处有下面两点:

  1. RPN只使用卷积网络的顶层特征,不过在FPN和Mask R-CNN中已经对这点进行了改进;

  2. RPN是一个二分类任务(前/背景),而SSD是一个包含了物体类别的多分类任务。

在论文中作者说SSD的精度超过了Faster R-CNN,速度超过了YOLO。下面我们将结合基于Keras的源码和论文对SSD进行详细剖析。

SSD详解

1. 算法流程

SSD的流程和YOLO是一样的,输入一张图片得到一系列候选区域,使用NMS得到最终的检测框。与YOLO不同的是,SSD使用了不同阶段的Feature Map用于检测,YOLO和SSD的对比如图2所示。

图1:SSD vs YOLO

在详解SSD之前,我先在代码片段1中列出SSD的超参数(./models/keras_ssd300.py),随后我们会在下面的章节中介绍这些超参数是如何使用的。

代码片段1:SSD的超参数

1.1 SSD的骨干网络

首先我们先看一下SSD的骨干网络的源码(./models/keras_ssd300.py),再结合源码和图2我们来剖析SSD的算法细节。

代码片段2:SSD骨干网络源码。注意源码中的变量名称和图2不一样,我在代码中进行了更正。

从图1中我们可以看出,SSD输入图片的尺寸是300×300300\times 300,另外SSD也由一个输入图片尺寸是512×512512\times 512的版本,这个版本的SSD虽然慢一些,但是是检测精度达到了76.9%。

SSD采用的是VGG-16的作为骨干网络,VGG的详细内容参考文章Very Deep Convolutional NetWorks for Large-Scale Image Recognition。使用标准网络的目的是为了使用训练好的模型进行迁移学习,SSD使用的是在ILSVRC CLS-LOC数据集上得到的模型进行的初始化。目的是在更高的采样率上计算Feature Map。

第一点不同的是在block5中,max_pool2d的步长stride=1stride=1,此时图像将不会进行降采样,也就是说输入到block6的Feature Map的尺寸任然是38×3838\times 38

SSD的3×33\times 3的conv6和1×11\times 1的conv7的卷积核是通过预训练模型的fc6和fc7采样得到,这种从全连接层中采样卷积核的方法参考的是DeepLab-LargeFov 的方法。具体细节在DeepLab-LargeFov的论文中进行分析。

在VGG的卷积部分之后,全连接被换成了卷机操作,在block6的卷积含有一个参数rate=6。此时的卷积操作为空洞卷积(Dilation Convolution),在TensorFLow中使用tf.nn.atrous_conv2d()调用。

空洞卷积可以在不增加模型复杂度的同时扩大卷积操作的视野,通过在卷积核中插值0的形式完成的。如图3所示,(a)是膨胀率为1的卷积,也就是标准的卷积,其感受野的大小是3×33\times 3。(b)的膨胀率为2,卷积核变成了7×77\times 7的卷积核,其中只有9个红点处的值不为0,在不增加复杂度的同时感受野变成了7×77\times 7。(c)的膨胀率是4,感受野的大小变成了15×1515\times 15。在设置感受野的膨胀率时要谨慎设计,否则如果卷积核大于Feature Map的尺寸之后程序会报错。

图3:空洞卷积示例图

fc7之后输出的Feature Map的大小是19×1919\times 19,经过block8的一次padding和一次valid卷积之后(即相当于一次same卷积),再经过一次步长为2的降采样,输入到block 9的Feature Map的尺寸是10×1010\times 10。block 9的操作和block 8相同,即输入到block 8的Feature Map的尺寸是5×55\times 5。block 10和block 11使用的是valid卷积,所以图像的尺寸分别是3和1。这样我们便得到了图2中Feature Map尺寸的变化过程。

1.2 多尺度预测

在卷积网络中,不同深度的Feature Map趋向于响应不同程度的特征,SDD使用了骨干网络中的多个Feature Map用于预测检测框。通过图1和图2我们可以发现,SSD使用的是conv4_3, fc7, conv8_2, conv9_2, conv10_2, conv11_2分别用于检测尺寸从小到大的物体,如代码片段3 (./models/keras_ssd300.py)。

代码片段3:SSD使用全卷积预测检测框

其中第二行的L2Normalization使用的是ParseNet 中提出的全局归一化。即对像素点的在通道维度上进行归一化,其中gamma是一个可训练的放缩变量。

SSD对于第ii个Feature Map的每个像素点都会产生n_boxes[i]个锚点进行分类和位置精校,其中n_boxes的值为[4,6,6,6,4,4],我们在1.3节会介绍n_boxes值的计算方法。SSD相当于预测M个bounding box,其中:

M=38×38×4+19×19×6+10×10×6+5×5×6+3×3×4+1×1×4=8732M = 38\times 38\times 4 + 19\times 19\times 6 + 10\times 10\times 6 + 5\times 5\times 6+ 3\times 3\times 4 +1\times 1\times 4=8732

上式便是图2中最右侧8732的计算方式。也就是对于一张300*300的输入图片,SSD要预测8732个检测框,所以SSD本质上可以看做是密集采样。SSD的分类有C+1C+1个值包括C类前景和1类背景,回归包括物体位置的四要素(y,x,h,w)。对于20类的Pascal VOC来说SSD是一个含有8732×(21+4)8732\times(21+4)的多任务模型。

通过代码片段3,我们可以看出SSD并没有使用全连接产生预测结果,而是使用的3*3的卷机操作分别产生了分类和回归的预测结果。对于一个分类任务来说,Feature Map的数量是(C+1)*n_boxes[i],而回归任务的Feature Map的数量是4*n_boxes[i]。

1.3 SSD中的锚点

在1.2节中,我们介绍了SSD的n_boxes=[4,6,6,6,4,4],下面我们就来详细解析SSD锚点是什么样子的。

SSD使用多尺度的Feature Map的原因是使用不同层次的Feature Map检测不同尺寸的物体,所以onv4_3, fc7, conv8_2, conv9_2, conv10_2, conv11_2的锚点的尺寸也是从小到大。论文中给出的值是从0.2到0.9间一个线性变化的值:

sk=smin+smaxsminm1(k1),k[1,m]s_k = s_{min} + \frac{s_{max} - s_{min}}{m-1}(k-1), k\in[1,m]

smins_{min}smaxs_{max}是两个超参数,需要根据不同的数据集自行调整。论文中给出的例子是smin=0.2s_{min}=0.2smax=0.9s_{max}=0.9m=6m=6sks_k表示的是锚点大小相对于Feature Map的比例,通过上式得出的值依次是[0.2, 0.34, 0.48, 0.62, 0.76, 0.9]

对于6组Feature Map,SSD分别产生[4,6,6,6,4,4]个不同比例的锚点。锚点的比例是超参数aspect_ratios_per_layer中给出的值加上一组比例为sk=sksk+1s'_k=\sqrt{s_k s_{k+1}}的框,其中sk+1=sk+(sksk1)s_{k+1} = s_k + (s_k - s_{k-1})。根据sks_k和长宽比ara_r我们便可以得到不同样式的锚点,其中锚点的宽wka=skarw^a_k = s_k\sqrt{a_r},高hka=sk/arh^a_k = s_k/\sqrt{a_r}ar{1,2,3,12,13}a_r \in \{1,2,3,\frac{1}{2},\frac{1}{3}\}

ara_r的取值也是一个超参数,在源码中,定义在aspect_ratios_per_layer中。根据aspect_ratios_per_layer的变量个数,我们便可以得到n_boxes的值。

举个例子,在conv4_3中,要产生38×38×438\times 38\times 4个锚点,其中有三个锚点的尺度分别是(1, 2.0, 0.5),再加上一组1:11:1的尺度为sk=0.2×0.34=0.2608s'_k=\sqrt{0.2\times 0.34} = 0.2608的锚点,得到四组锚点分别是[(0.2,0.2),(0.2608,0.2608),(0.2828,0.1414),(0.1414,0.2828)][(0.2,0.2), (0.2608, 0.2608), (0.2828, 0.1414), (0.1414, 0.2828)]。等比例换算到原图中得到的锚点的大小(取整)为[(60,60),(78,78),(85,42),(42,85)][(60, 60), (78, 78), (85, 42), (42, 85)]

通过上面的介绍,我们得到了锚点四要素中的wwhh,锚点的xx, yy通过下式得到

(x,y)=(i+0.5fk,j+0.5fk),i,j[0,fk](x,y) = (\frac{i+0.5}{|f_k|}, \frac{j+0.5}{|f_k|}), i,j\in [0, |f_k|]

i,ji,j 即Feature Map像素点的坐标,fkf_k是Feature Map的尺寸。图4便是在8×88\times 84×44\times 4的Feature Map上得到不同尺度的锚点的示例。

图4:锚点示例,改图也展示了锚点对Ground Truth的响应。

锚点如何设计是一种见仁见智的方案,例如源码中锚点的尺度便和论文不同,在源码中,尺度定义在jupyter notebook 文件./ssd300_training.ipynb中。关于具体如何定义这些锚点其实不必太过在意,这些锚点的作用是为检测框提供一个先验假设,网络最后输出的候选框还是要经过Ground Truth纠正的。

除了锚点的尺度以外,源码中锚点的中心点的实现也和论文不同。源码使用预先计算好的步长加上位移进行预测的,即超参数中的变量steps=[8, 16, 32, 64, 100, 300]。conv4_3经过了3次降采样,即Feature Map的一步相当于原图的8步。但是对于这种方案存在一个问题,即75降采样到38时是不能整除的,也就是最后一列并没有参加降采样,这样步长非精确的计算经过多次累积会被放大到很大。例如经过源码中步长为64的conv9_2层的最后一行和最后一列的锚点的中心点将会取到图像之外,有兴趣的读者可以打印一下。

源码中,锚点是在keras_layers/keras_layer_AnchorBoxes中实现的,通过AnchorBoxes函数调用。网络中的6个Feature Map会产生6组共8732个先验box,如代码片段4所示。

代码片段4:计算先验box

1.4 SSD的匹配准则

从Feature Map得到锚点之后,我们要确定Ground Truth和哪个锚点匹配,与之匹配的锚点将负责该Ground Truth的预测。在YOLO中,Ground Truth的中心点落在哪个单元内,则该单元的bounding box负责预测其准确的边界。SSD的锚点匹配采用了‘bipartite’和‘multi’两种策略,匹配源码位于./ssd_encoder_decoder/目录下面。 在bipartite模式中,每个Ground Truth选择与其IoU(论文用的是Jaccard Overlap)最大的锚点进行匹配.如果一个锚点被多个Ground Truth匹配,那么该锚点只匹配与其IoU最大的Ground Truth,其它Ground Truth从剩下的锚点中选择Iou最大的那个进行匹配。bipartite可以保证每个Ground Truth都会有唯一的一个锚点进行匹配。bipartite的源码见代码片段5。

代码片段5:bipartite匹配

在bipartite策略中被匹配的锚点数量是非常少的,这就造成了训练时的正负样本的不平衡。所以需要multi策略进行纠正,源码中也是使用的multi策略。mutli在bipartite策略的基础上增加了所有与Ground Truth的IoU大于阈值θ\theta(源码中θ=0.5\theta=0.5)的锚点作为匹配锚点。SSD中一个Ground Truth是可以有多个锚点与其匹配的,但是反过来是不行的,一个锚点只能与和它IoU最大的Ground Truth进行匹配。mutli策略的源码见代码片段6

代码片段6:multi匹配

尽管通过multi匹配策略增加了正样本的数量,但是在8732个锚点中,正负样本的比例还是非常不均衡的。所以SSD使用了难分样本挖掘(Hard Negative Mining)的策略对负样本进行采样。即对负样本的置信度进行排序,在保证正负样本1:31:3的的前提下抽取top-k个负样本。

1.5 SSD的损失函数

由于SSD也是一个由分类任务和检测任务多任务模型,所以SSD的损失函数将由置信度误差LconfL_{conf}和位置误差LlocL_{loc}组成:

L(x,c,l,g)=1N(Lconf(x,c)+αLloc(x,l,g))L(x,c,l,g) = \frac{1}{N} (L_{conf}(x, c) + \alpha L_{loc}(x,l,g))

其中NN是正锚点的数量,α\alpha是两个任务的侧重比重,经过交叉验证之后α\alpha被设置成了1。xi,jp={0,1}xx_{i,j}^p =\{0,1\}\in x用于指示该锚点是否和Ground Truth进行了匹配。

对于分类任务,SSD使用的是softmax多类别的损失函数,上式中的cc表示分类置信度:

Lconf(x,c)=iPosNxi,jplog(c^ip)iNeglog(c^i0),c^ip=exp(cip)pexp(cip)L_{conf}(x,c) = - \sum^{N}_{i\in Pos} x^p_{i,j}log(\hat{c}^p_i) - \sum_{i\in Neg} log(\hat{c}^0_i), \hat{c}^p_i=\frac{exp(c^p_i)}{\sum_p exp(c^p_i)}

对于回归任务,SSD预测的是正锚点和Ground Truth的相对位移,损失函数使用的是Smooth L1损失函数。ll表示预测的锚点和Ground Truth的相对位移,而gg表示实际的相对位移。其中llgg包含物体位置的四要素(g^jcx,g^jcy,g^jw,g^jh)(\hat{g}^{cx}_j, \hat{g}^{cy}_j, \hat{g}^w_j, \hat{g}^h_j)

g^jcx=(gjcxdicx)/diw\hat{g}^{cx}_j = (g^{cx}_j - d^{cx}_i)/d^w_i g^jcy=(gjcydicy)/dih\hat{g}^{cy}_j = (g^{cy}_j - d^{cy}_i)/d^h_i g^jw=log(gjwdiw)\hat{g}^w_j = log(\frac{g^w_j}{d^w_i}) g^jh=log(gjhdih)\hat{g}^h_j = log(\frac{g^h_j}{d^h_i})

损失函数表示为实际偏移和预测偏移的Smooth L1损失:

Lloc(x,l,g)=iPosNmcx,cy,w,hxi,jksmoothL1(limg^jm)L_{loc}(x,l,g) = - \sum^{N}_{i\in Pos} \sum_{m \in {cx,cy,w,h}} x^k_{i,j} smooth_{L1} (l^m_i - \hat{g}^m_j)

与Faster R-CNN的(x,y)(x,y)表示左上角不同,SDD的(cx,cy)(cx,cy)表示的是锚点的中心点。

1.6 SSD的检测过程

  1. 根据预测类别过滤掉背景类别的候选框;

  2. 根据置信度过滤掉置信度低于阈值的候选框;

  3. 置信度降序排列,保留top-k的候选框;

  4. 解码相对位移,得出预测框四要素;

  5. 使用NMS得到最终的候选区域。

2. DSSD

SSD一个非常有意思的变种是使用反卷积增加了上下文信息的DSSD ,或者说用反卷积代替了基于双线性插值的上采样过程。下面我们来讲解DSSD是怎么进一步优化SSD的。

2.1 DSSD的骨干网络

在骨干网络方面,DSSD使用了层数更深的Residual Net-101,检测模块的网络是从conv5_x之后开始的,用于进行检测的则包括conv3_x,conv5_x和添加的检测模块,如图5。

图5:DSSD的骨干网络

DSSD并没有把反卷积部分构造的非常深,的原因有二:

  1. 过多的反卷积会影响检测的速度,这与SSD的初衷不符;

  2. 模型的训练依赖于迁移学习的初始化,而反卷积部分是没有模型可工迁移的。随机初始化部分如果过深的话会降低模型的收敛速度。

单纯的网络替换并不能带来检测效果的提升,DSSD的最大特点是图5右侧红色的反卷积部分。

2.2 反卷积

反卷积 ,又被叫做逆卷积,是在语义分割中应用中最常见的算法之一。下面通过一个例子来说明反卷积的工作原理:对于一个4×44\times4 的输入xx,经过3×33\times3 卷积核的有效卷积,得到一个2×22\times2 的特征向量yy, 设卷积运算为y=Cxy=CxCC的本质上是一个稀疏矩阵(很多开源框架卷积操作的实现方式):

反卷积相当于卷积网络的正向和反向的传播中做相反的运算,即正向的时候左乘CTC^T,反向的时候左乘(CT)T=C(C^T)^T=C 的运算,所以有些人更喜欢把反卷积叫做转置卷积。

图5中的Deconvolution Module(反卷积模块)展开如图6所示。

图6:DSSD的反卷积模块

DSSD的反卷积模块分成两部分:图6的上半部分是反卷积Feature Map,其尺寸为H×WH\times W;图6的下半部分是SSD的Feature Map,其尺寸是反卷积Feature Map的二倍,即2H×2W2H \times 2W,进行了两组卷积和BN操作,得到一组2H×2W2H \times 2W的FeatureMap。在反卷积部分中,通过步长为2的反卷积操作和一组3×33\times3卷积得到2H×2W2H\times 2W的Feature Map。最后通过单位积操作和一个ReLU激活函数得到最终2W×2H2W\times2H的Feature Map。同时作者也尝试了单位和操作,但是效果并不如单位积。

2.3 预测模块

作者在反卷积模块之后尝试了几种预测模块,图7。其中(a)是最常见的预测模块,例如SSD,YOLO;(b)和(c)分别是YOLOv2和YOLOv3采用的模块,不同的是YOLO需要上采样或者将采样到相同的尺寸。(c)是DSSD采用的预测模块,作者同时尝试了图7所有模块,实验结果表明(c)在DSSD中表现最好。

图7:DSSD中预测模块的几个变种

2.4 DSSD的锚点聚类

DSSD的锚点比例也采用了YOLOv2的思想对Ground Truth进行了聚类分析的方式得到。由于大部分Ground Truth的比例都在[1,3][1, 3],所以作者设置了三个比例的锚点(1.6,2.0,3.0)(1.6, 2.0, 3.0)

小结

SSD算法的核心点在于 1. 使用多尺度的Feature Map提取特征; 2. 利用Faster R-CNN的锚点机制改进候选框。

DSSD的提出时间则较晚,其主要特别是反卷积的引入,从最近的趋势可以看出,物体检测和语义分割的交集越来越多,双方都不断的从对方汲取灵感来源来优化对应任务。

最后更新于

这有帮助吗?