表1现有方法需要的标注信息和模型输出结果的对比(L:文本行级,W:单词级,C:单字级)。PageNet仅需要文本标注即可得到文本行级和单字级的检测和识别结果。
二、方法
图1PageNet方法整体框架
PageNet方法的整体框架如图1所示,包括四个部分:(1)主干网络提取输入图像的高维特征;(2)检测和识别模块完成单字的检测识别;(3)阅读顺序模块预测单字间的阅读顺序;(4)基于图的解码算法结合单字的检测识别结果和阅读顺序,得到最终的篇幅级结果。该结果包含文本行级和单字级的检测识别结果。
2.2主干网络
2.3检测和识别模块
2.4阅读顺序模块
图2阅读顺序模块框图
阅读顺序模块的整体流程如图2所示。该模块将阅读顺序预测问题分解为:(1)文本行开始字符预测;(2)根据字符间的连接关系逐步找到阅读顺序中的下一个字符;(3)行结束字符预测。其中,字符间的连接关系定义为字符间搜索路径上网格的转移方向(上下左右之一)。
2.5基于图的解码算法
图3基于图的解码算法流程
2.6弱监督学习方法
图4弱监督学习方法整体流程图
弱监督学习方法的整体流程图如图4所示。输入数据包括仅有各行文本标注的真实数据和有完整标注的合成数据。为了验证弱监督学习方法的泛化性,合成数据采用将字体文件生成的汉字贴到简单背景上的方法,因此与真实数据存在较大的差异。弱监督学习方法需要将合成数据中学习到的检测识别能力迁移到多种多样的真实场景中。
三、实验
3.1实验数据集
(1)CASIA-HWDB手写中文数据集,包括篇幅级数据集CASIA-HWDB2.0-2.2(5091张图片)和单字数据集CASIA-HWDB1.0-1.2(389万个单字)。
(3)MTHv2中文古籍数据集,包括3199张古籍图片,分为2399张训练集和800张测试集。
(4)SCUT-HCCDoc拍照手写数据集,包括12253张图片,分为9801张训练集和2452张测试集。
(5)JS-SCUTPrintCC中英文印刷文档数据集,包括398张图片,分为348张训练集和50张测试集。
图5合成数据示例
3.2模型结构
模型结构如图6所示。
图6模型具体结构图
3.3评测指标
针对仅标注各行文本内容的弱监督情况,提出了AR*和CR*指标。这两种指标首先将模型预测文本行和标注文本行根据AR进行匹配。对已经匹配的文本行对,计算插入错误、删除错误和替换错误并累积。对于没有被匹配的预测文本行,其中所有单字均视为插入错误。对于没有被匹配的标注文本行,其中所有单字均视为删除错误。最后,采用类似于AR和CR的计算方式,得到AR*和CR*指标。
3.4ICDAR13数据集
PageNet在ICDAR13篇幅级手写中文数据集上的端到端识别指标和文本行检测指标及其与现有方法的对比如下表所示。可以看出,PageNet超过了现有的全监督和弱监督方法,取得SoTA的端到端篇幅级识别指标。
表2PageNet与现有方法在ICDAR13数据集上的对比
3.5MTHv2、SCUT-HCCDoc和JS-SCUTPrintCC数据集
PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUTPrintCC数据集上的端到端识别指标对比如下表所示。可以看出,在MTHv2数据集上,PageNet取得了与最佳的全监督模型相近的端到端识别指标。在SCUT-HCCDoc数据集上,因为该数据集涉及复杂的版面和光照、拍照角度等干扰,这对无真实场景文本位置信息监督的PageNet提出了很大挑战。但是借助合理设计的弱监督学习方法,PageNet大幅度超过了其他弱监督方法且与最佳的全监督模型指标较为接近。在JS-SCUTPrintCC数据集上,PageNet取得了最高的端到端识别指标,证明该方法可以处理中英文混合的文档场景。
表3PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUTPrintCC数据集上的对比
3.6ICDAR13文本行级数据
PageNet与现有方法在ICDAR13文本行数据集(根据标注切出文本行)上的识别指标对比如下表所示。可以看出,虽然PageNet是在篇幅级进行识别且AR*和CR*需要考虑到文本行检测的准确度,但是PageNet的指标仍然超过了现有的文本行级识别方法。这一结果证明了基于单字检测和识别的方法相较于流行的基于CTC/Attention方法更加适合于中文文本识别。
表4PageNet与现有方法在ICDAR13文本行数据集上的对比
3.7单字检测识别指标
PageNet与经典检测方法FasterR-CNN和YOLOv3在ICDAR13数据集上的单字检测识别指标如下表所示。可以看到弱监督的PageNet在同时考虑单字检测和识别时(7356C)取得了远超全监督的FasterR-CNN&YOLOv3的指标。
表5PageNet与FasterR-CNN和YOLOv3在ICDAR13数据集上的单字检测识别指标对比
3.8实验结果可视化
部分可视化结果如下图所示,图中左侧为单字检测识别结果,右侧为阅读顺序预测结果。更多可视化结果请参见原文。
图6可视化结果
3.9其他实验
四、总结及讨论
参考文献
[2]DezhiPeng,etal.“RecognitionofhandwrittenChinesetextbysegmentation:Asegment-annotation-freeapproach.”IEEETransactionsonMultimedia.2022.
[3]DezhiPeng,etal.“PageNet:Towardsend-to-endweaklysupervisedpage-levelhandwrittenChinesetextrecognition”InternationalJournalofComputerVision.2022.
编辑:黄飞
原文标题:顶刊IJCV2022!PageNet:面向端到端弱监督篇幅级手写中文文本识别
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)