Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework
最后更新于
最后更新于
tags: Deep TextSpotter, OCR, YOLOv2, STN, CTC
Deep TextSpotter的创新点并不多,基本上遵循了传统OCR或者物体检测的两步走的流程(图1),即先进行场景文字检测,再进行文字识别。在这个算法中,检测模块基于YOLOv2,识别模块基于STN,损失函数则使用了精度的CTC。这几个算法在当时都是state-of-the-art的,因此其效果达到了最优也不难理解。这三个知识点已分别在本书的第四章,第五章和第二章进行了解析,算法细节可参考具体内容或者阅读论文。这里不在对上面三个算法的细节再做重复,只会对Deep TextSpotter的流程做一下梳理和解释。
Deep TextSpotter的一个创新点是将NMS放到了识别之后,使用识别置信度替代了传统的检测置信度。
为什么使用YOLOv2:在YOLOv2的文章中我们讲过,YOLOv2使用了高分辨率的迁移学习提高了网络对高分辨率图像的检测效果,这个能力在端到端的文字检测及识别中非常重要。因为过分的降采样将造成文本区域的识别问题。
全卷积:Deep TextSpotter使用了Global Average Pooling代替全连接实现非线性化,从而使网络成为全卷积网络,原因已多次提及:保留特征向量的位置信息。
锚点聚类:Deep TextSpotter将锚点聚了14类,锚点形状见图2。
样本采样:匹配正负锚点时使用了YOLOv1中介绍的bipartite策略,即只有和Ground Truth的IOU最大的锚点为正样本,其余均为负样本。
经过YOLOv2得到的检测框的尺寸,角度,比例等都是不同的,为了产生长度固定的特征向量。Faster R-CNN等方法采用的是ROI Pooling,Deep TextSpotter则是使用STN的策略,STN不仅能产生长度固定的特征向量,还能学到图像的仿射变换矩阵,是非常适用于OCR领域的。
这个过程便是双线性插值,不理解的参考我在STN的解释。
在STN中我们讲过其双线性插值是可导的,因此到目前为止该过程是端到端的。
Deep TextSpotter使用的是基于字符序列识别方式,骨干网络使用的是基于图3的全卷积网络。网络支持宽的变长输入,但是高是固定的。图3中的Recurrent Convolution猜测是使用的结构,论文中没有给出注释。
损失函数使用的是CTC,参考第二章CTC一节,此处不再废话。
由于使用了STN连接检测和识别,Deep TextSpotter是一个真正的端到端模型,所以在训练的过程中,只需要针对分类的loss进行训练。
Deep TextSpotter,算法最核心的部件是STN,但是并没有cite该论文,识别中的RCNN也没cite,进而导致了理解上的困难,这毛病可不好。
Feature Map的尺寸:网络的框架也采样去YOLOv2中在卷积中插入卷积进行非线性化的结构。对于一张尺寸为的输入图像,在网络中会通过5个Max Pooling进行降采样,得到尺寸为的的Feature Map。在Deep TextSpotter中,每隔20个Epoch会更换一次输入图像的尺寸,尺寸的变化范围是
输出向量:Deep TextSpotter的检测部分预测了6个值,它们分别是坐标,,尺寸,,检测置信度以及比YOLOv2增加的一个旋转角度。其中角度使用了弧度值,即 。其它几个预测值则采用了YOLOv2中使用的预测相对值。
NMS:Deep TextSpotter的一个创新点在于并没有这检测完之后就使用NMS,考虑到的一个问题是只覆盖部分文字区域的检测框的置信度有可能高于检测到完整文字区域的置信度要高。在这里,只使用阈值过滤掉部分置信度非常低的样本。
Deep TextSpotter产生的是长宽比不变,宽度固定位的Feature Map,即对于一个检测到的区域,其得到的Feature Map的为。
Feature Map中位置处的值为:
其中为检测框中的一点,(x',y')为输出Feature Map上的一点,范围是。为位置转移函数,应该是仿射变换矩阵。为双线性插值函数。
在检测中搁置的NMS将在识别完之后在使用,NMS中使用的置信度是识别的置信度,阈值给的是。