新型的端到端弱监督篇幅级手写中文文本识别方法PageNet

表1现有方法需要的标注信息和模型输出结果的对比(L:文本行级,W:单词级,C:单字级)。PageNet仅需要文本标注即可得到文本行级和单字级的检测和识别结果。

二、方法

图1PageNet方法整体框架

PageNet方法的整体框架如图1所示,包括四个部分:(1)主干网络提取输入图像的高维特征;(2)检测和识别模块完成单字的检测识别;(3)阅读顺序模块预测单字间的阅读顺序;(4)基于图的解码算法结合单字的检测识别结果和阅读顺序,得到最终的篇幅级结果。该结果包含文本行级和单字级的检测识别结果。

2.2主干网络

2.3检测和识别模块

2.4阅读顺序模块

图2阅读顺序模块框图

阅读顺序模块的整体流程如图2所示。该模块将阅读顺序预测问题分解为:(1)文本行开始字符预测;(2)根据字符间的连接关系逐步找到阅读顺序中的下一个字符;(3)行结束字符预测。其中,字符间的连接关系定义为字符间搜索路径上网格的转移方向(上下左右之一)。

2.5基于图的解码算法

图3基于图的解码算法流程

2.6弱监督学习方法

图4弱监督学习方法整体流程图

弱监督学习方法的整体流程图如图4所示。输入数据包括仅有各行文本标注的真实数据和有完整标注的合成数据。为了验证弱监督学习方法的泛化性,合成数据采用将字体文件生成的汉字贴到简单背景上的方法,因此与真实数据存在较大的差异。弱监督学习方法需要将合成数据中学习到的检测识别能力迁移到多种多样的真实场景中。

三、实验

3.1实验数据集

(1)CASIA-HWDB手写中文数据集,包括篇幅级数据集CASIA-HWDB2.0-2.2(5091张图片)和单字数据集CASIA-HWDB1.0-1.2(389万个单字)。

(3)MTHv2中文古籍数据集,包括3199张古籍图片,分为2399张训练集和800张测试集。

(4)SCUT-HCCDoc拍照手写数据集,包括12253张图片,分为9801张训练集和2452张测试集。

(5)JS-SCUTPrintCC中英文印刷文档数据集,包括398张图片,分为348张训练集和50张测试集。

图5合成数据示例

3.2模型结构

模型结构如图6所示。

图6模型具体结构图

3.3评测指标

针对仅标注各行文本内容的弱监督情况,提出了AR*和CR*指标。这两种指标首先将模型预测文本行和标注文本行根据AR进行匹配。对已经匹配的文本行对,计算插入错误、删除错误和替换错误并累积。对于没有被匹配的预测文本行,其中所有单字均视为插入错误。对于没有被匹配的标注文本行,其中所有单字均视为删除错误。最后,采用类似于AR和CR的计算方式,得到AR*和CR*指标。

3.4ICDAR13数据集

PageNet在ICDAR13篇幅级手写中文数据集上的端到端识别指标和文本行检测指标及其与现有方法的对比如下表所示。可以看出,PageNet超过了现有的全监督和弱监督方法,取得SoTA的端到端篇幅级识别指标。

表2PageNet与现有方法在ICDAR13数据集上的对比

3.5MTHv2、SCUT-HCCDoc和JS-SCUTPrintCC数据集

PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUTPrintCC数据集上的端到端识别指标对比如下表所示。可以看出,在MTHv2数据集上,PageNet取得了与最佳的全监督模型相近的端到端识别指标。在SCUT-HCCDoc数据集上,因为该数据集涉及复杂的版面和光照、拍照角度等干扰,这对无真实场景文本位置信息监督的PageNet提出了很大挑战。但是借助合理设计的弱监督学习方法,PageNet大幅度超过了其他弱监督方法且与最佳的全监督模型指标较为接近。在JS-SCUTPrintCC数据集上,PageNet取得了最高的端到端识别指标,证明该方法可以处理中英文混合的文档场景。

表3PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUTPrintCC数据集上的对比

3.6ICDAR13文本行级数据

PageNet与现有方法在ICDAR13文本行数据集(根据标注切出文本行)上的识别指标对比如下表所示。可以看出,虽然PageNet是在篇幅级进行识别且AR*和CR*需要考虑到文本行检测的准确度,但是PageNet的指标仍然超过了现有的文本行级识别方法。这一结果证明了基于单字检测和识别的方法相较于流行的基于CTC/Attention方法更加适合于中文文本识别。

表4PageNet与现有方法在ICDAR13文本行数据集上的对比

3.7单字检测识别指标

PageNet与经典检测方法FasterR-CNN和YOLOv3在ICDAR13数据集上的单字检测识别指标如下表所示。可以看到弱监督的PageNet在同时考虑单字检测和识别时(7356C)取得了远超全监督的FasterR-CNN&YOLOv3的指标。

表5PageNet与FasterR-CNN和YOLOv3在ICDAR13数据集上的单字检测识别指标对比

3.8实验结果可视化

部分可视化结果如下图所示,图中左侧为单字检测识别结果,右侧为阅读顺序预测结果。更多可视化结果请参见原文。

图6可视化结果

3.9其他实验

四、总结及讨论

参考文献

[2]DezhiPeng,etal.“RecognitionofhandwrittenChinesetextbysegmentation:Asegment-annotation-freeapproach.”IEEETransactionsonMultimedia.2022.

[3]DezhiPeng,etal.“PageNet:Towardsend-to-endweaklysupervisedpage-levelhandwrittenChinesetextrecognition”InternationalJournalofComputerVision.2022.

编辑:黄飞

原文标题:顶刊IJCV2022!PageNet:面向端到端弱监督篇幅级手写中文文本识别

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)

THE END
1.(casiahwdb)汉字识别数据集The online and offline Chinese handwriting databases, CASIA-OLHWDB and CASIA-HWDB, were built by the National Laboratory of Pattern Recognition (NLPR), Institute of Automation of Chinese Academy of Sciences (CASIA). The handwritten samples were produced by 1,020 writers using Anoto pen on papershttp://www.nlpr.ia.ac.cn/databases/handwriting/Home.html
2.keras+卷积神经网络HWDB手写汉字识别keras+卷积神经网络HWDB手写汉字识别 写在前面 HWDB手写汉字数据集来自于中科院自动化研究所,下载地址: http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1trn_gnt.zip http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1tst_gnt.ziphttps://blog.csdn.net/yql_617540298/article/details/82251994
3.celeba数据集CelebFaces Attributes Dataset (CelebA) is a large-scale face attributes dataset with more than 200K celebrity images, each with 40 attribute annotations. The images in this dataset cover large pose variations and background clutter. CelebA has large diversities, large quantities, and rich annotationshttp://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
4.手写汉字数据集(部分)手写汉字数据集(HWDB1.1),图片形式的各种汉字以经分别在各个文件夹内存储好。 手写汉字 数据集2018-09-05 上传大小:42.00MB 所需:43积分/C币 CNN卷积神经网络识别手写汉字MNIST数据集.zip 这是我修改的别人的代码,别人的代码有点问题,我修改了一下,代码的正确率很高,可达90%以上,这是一个5层卷积神经网络的代https://www.iteye.com/resource/qq_27280237-10648261
5.Gbase8a数据库安装与使用HWDB-1.1 手写汉字CNN识别模型训练 数据集 使用CASIA-HWDB1.1进行训练和测试,训练集和测试集按照4:1划分,测试集235200张,训练集940800张, 共计1,176,000张图像。该数据集由300个人手写而成,其中包含171个阿拉伯数字和特殊符号,3755类GB2312-80 level-1汉字。 http://www.nlpr.ia.ac.cn/databases/handwriting/https://www.pianshen.com/article/7084303285/
6.基于机器学习的方法实现手写数据集识别系统手写字体识别数据集下载HWDB1.1数据集: 1. $ wget http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1trn_gnt.zip 2. # zip解压没得说, 之后还要解压alz压缩文件 3. $ wget http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1tst_gnt.zip https://blog.51cto.com/u_16213702/8807334
7.使用python获取CASIA脱机和在线手写汉字库CASIA-HWDB CASIA-OLHWDB 在申请书中介绍了数据集的基本情况: >CASIA-HWDB和CASIA-OLHWDB数据库由中科院自动化研究所在 2007-2010 年间收集, 均各自包含 1,020 人书写的脱机(联机)手写中文单字样本和手写文本, 用 Anoto 笔在点阵纸上书写后扫描、分割得到。 https://www.imooc.com/article/40759
8.CASIAHWDB脱机手写汉字数据集以及申请表下载我真的找遍全网,总算是找到了这个数据集,现在分享给大家。共六个文件,分别是CASIA-HWDB1.0训练集和测试集、CASIA-HWDB1.1训练集和测试集、CASIA-Competition数据集还有一张申请表。不过我看大多数人都是把前四个文件合并起来当做训练集,用Competition那个做测试集的。【注:2019年春节期间数据集的官网打不开,现在https://www.jianshu.com/p/980e2528e8fe