二维信息识别

二维图像识别包括多行文本识别,表格识别,公式识别甚至Image Caption等,它们的共同特点是图像的内容即要考虑左右顺序关系,同时也要考虑上下的内容信息,因此不能再采用CTC作为损失函数。在深度学习中,二维识别的算法一般也是采用“编码器-解码器”的网络结构,这里的解码器叫做“生成器”其实更符合网络特征。在二维图像识别中,编码器一般采用CNN组成,用于将图像编码成特征向量,而解码器(或生成器)一般由RNN组成,用于根据图像的特征生成对应的标签,这个标签可以使文本的内容,或者是图像的描述,或者是公式的Latex代码等。

最后更新于