> For the complete documentation index, see [llms.txt](https://senliuy.gitbook.io/advanced-deep-learning/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://senliuy.gitbook.io/advanced-deep-learning/di-wu-zhang-ff1a-guang-xue-zi-fu-shi-bie/er-wei-xin-xi-shi-bie.md).

# 二维信息识别

二维图像识别包括多行文本识别，表格识别，公式识别甚至Image Caption等，它们的共同特点是图像的内容即要考虑左右顺序关系，同时也要考虑上下的内容信息，因此不能再采用CTC作为损失函数。在深度学习中，二维识别的算法一般也是采用“编码器-解码器”的网络结构，这里的解码器叫做“生成器”其实更符合网络特征。在二维图像识别中，编码器一般采用CNN组成，用于将图像编码成特征向量，而解码器（或生成器）一般由RNN组成，用于根据图像的特征生成对应的标签，这个标签可以使文本的内容，或者是图像的描述，或者是公式的Latex代码等。