1.中国科学院软件研究所,北京100190
*通讯作者(Email:longlong@iscas.ac.cn)
摘要:大规模手写字符数据集对设计和评价手写识别算法和系统的性能非常重要。联机手写藏文字符数据集包括150个书写者数据,每个书写者完成583个藏文字符的书写。583个藏文字符从藏文编码字符集的基本集和扩充集A中选择,书写者采用电子笔在手写板书写得到手写藏文字符的轨迹点序列。采用已有的识别算法对该数据集进行评价作为实验基准,实验结果表明藏文字符识别性能仍有较大的提升空间。本数据集预期能够为联机手写藏文输入法中的藏文字符识别算法提供数据支撑。
关键词:藏文;联机手写藏文字符;识别;评价
ADatasetofOnlineHandwrittenTibetanCharacter
MaLonglong1*,WuJian1
1InstituteofSoftware,ChineseAcademyofSciences,Beijing,100190
*Email:longlong@iscas.ac.cn
Abstract:Largenumberofhandwrittencharacterdatasetsisimportanttoevaluatehandwrittenrecognitionalgorithmsandrecognitionsystemperformance.OnlinehandwrittenTibetancharacterdatasetcontains583Tibetancharacterclasseswrittenby150personsfromTibetanethnicminority.ThesecharactersareselectedfrombasicsetandextensionsetAofTibetancodedcharacterset.Thisdatasetiscollectedusingelectronicpenondigitaltablet.Weevaluatethedatasetusingexistingalgorithmsasabaseline.Experimentalresultsrevealabigchallengetohigherrecognitionperformance.ThisdatasetisexpectedtoprovidedatasupportforTibetancharacterrecognitionalgorithmsappliedtoonlinehandwrittenTibetaninputmethod.
Keywords:Tibetan;onlinehandwrittenTibetancharacter;recognition;evaluation
数据库(集)基本信息简介
数据库(集)中文名称
数据库(集)英文名称
通讯作者
马龙龙(longlong@iscas.ac.cn)
数据作者
马龙龙、吴健
2006~2008,2012年
地理区域
西藏、青海、兰州等省的藏族地区
数据量
14.5MB
数据格式
POT(自定义格式,详见数据样本描述部分)
数据服务系统网址
基金项目
国家自然科学基金:基于部件的联机手写藏文音节识别方法研究
(基金编号:61202220)
数据库(集)组成
收集了150个书写者的联机手写藏文数据,每个书写者手写常用583个藏文字符,且书写者均来自西藏、青海、兰州等藏族地区。每个书写者的所有字符的手写轨迹对应1个POT文件,数据库使用者可以根据该文件的存储格式读取数据。
联机手写藏文字符识别从2000年后开始被研究,很多有效的方法和识别算法也随之被提出,并在藏文手写输入法以及中小学手写藏文笔划学习等方面成功应用。由于不同书写者的手写风格不同,大规模无约束联机手写藏文字符数据集对设计和评价联机手写识别算法和系统的性能非常重要。
目前研究者们已经收集和建立了多种文字的联机手写数据集,推动了联机手写识别研究的发展。常用联机手写字符数据集包括日文联机手写字符数据集Kuchibue和Nakayosi[1~2],UNIPEN项目里的字符数据集[3]、中文联机手写字符数据集SCUT-COUCH2008[4]、HIT-OR3C[5]、CASIA-OLHWDB1.0和CASIA-OLHWDB1.1[6]、法文字符数据集IRONOFF[7]。为支持无约束联机手写藏文识别的研究,中国科学院软件研究所在2006~2008年期间收集整理了一个联机手写藏文字符数据集MRG-OHTC[8],书写者采用手写笔在手写板上书写得到手写轨迹数据,计算机设计的交互界面辅助书写过程的完成,最终手写轨迹保存为联机手写藏文字符样本数据。MRG-OHTC数据集包括130人的书写笔迹,每人手写910类藏文字符类别,并分成了标准的训练集和测试集,供设计分类器和评价算法性能使用。在2011年的国际文档分析与识别会议(ICDAR)公布,免费供学术界使用。针对目前移动设备对藏文手写识别的需求,本数据集选取常用583个藏文字符,同时增加20人的书写笔迹,最终形成由150人手写的联机手写藏文字符数据集。
构建联机手写藏文字符数据集,需要考虑多方面因素。从基本处理单元的选择、采样设备、样本类别选择和书写者的挑选等都需要精心设计,下面引入手写样本收集的主要过程。
要进行联机手写藏文识别的研究,首先应该确定识别处理的基本单元。例如,联机手写英文识别早期是以字母为识别处理的基本单元,现在的研究重点是完全无限制的整句识别技术;而联机手写汉字识别则是以单个汉字为处理的基本单元。
在藏文的字母、字符和音节中,选用藏文字符作为联机藏文手写识别的基本处理单元。理由如下:
虽然英文等拼音文字在早期联机手写识别中采用字母作为基本处理单元,但是字母并不适合作为联机藏文手写识别的基本处理单元。原因有二:首先,不可能在每个藏文字母输入后停顿下来等待计算机识别,这不符合手写的习惯,这就要求对每个输入后的藏文字符进行字母切分;其次,藏文字符的字母切分困难,藏文的字符由藏文字母上下叠加而成,为了结构的美观完善,字母在叠加时会发生变形,导致了分析联机藏文手写数据时切分藏文字母的困难。
藏文音节由藏文字符水平连续组成,一个音节的字符之间在结构上是独立的。字符与字符之间容易界定。
参照《信息技术藏文编码字符集扩充集A》编制中的说明“在国际标准框架下制定藏文大字符集编码国家标准,定义垂直预组合的藏文字符,应作为我国藏文信息处理发展的策略;同时,不排斥小字符集的技术方案,并积极跟踪研究动态组合技术”,可见,采用对垂直预组合的藏文字符进行编码的《扩充集A》和《扩充集B》是国家积极推行的藏文信息标准。
《扩充集A》和《扩充集B》中的垂直预组合藏文字符可以转换为《基本集》中藏文字母编码的组合串。“大字符集”和“小字符集”编码之间已有软件支持相互转换,即使选用垂直组合的藏文字符作为基本处理单元,也很容易实现产品的国际化。
通过分析和对比目前可获得的联机手写采样设备,并结合实际的需求,采用手写板和手写笔来完成,计算机程序辅助完成采样过程。
图1给出程序设计的采集样本的交互界面,界面左侧给出了藏文字符的Unicode编码及对应的字符形状,右侧为固定大小的手写区域,书写者可以无约束地在该区域书写,当书写者在手写板上书写字符时,界面右侧实时显示手写的字符形状。当书写完一个字符样本时,点击OK按钮,则保存字符的点轨迹序列;若进行下一个字符的书写,则点击Next按钮;若修改或浏览已写的藏文字符样本,则点击Back按钮。
图1采集样本的交互界面
对比文献[6]的采样策略,我们采集样本方法的优势是不需要进行样本的标定,相应地可以避免样本标定过程中产生的错误。
目前国家已经制定并实行的藏文信息标准有两个:GB/T16959-1997《信息技术信息交换用藏文编码字符集基本集》和GB/T20542-2006《信息技术藏文编码字符集扩充集A》。另外参照《信息技术藏文编码字符集扩充集A》编制说明[9]中的技术论证部分:扩充集A在现代藏文文献中的覆盖率达到100%。所以在对联机藏文手写样本进行收集时共选择了包括基本集和扩充集A在内的583个字符,剔除掉了不常用的梵文字符,其编码范围如下:0x0F00-0x0F0B,0x0F0D-0x0F14,0x0F1A-0x0F34,0x0F3A-0x0F3D,0x0F40-0x0F47,0x0F49-0x0F6A,0xF300-0xF600,0xF602-0xF605,0xF610,0xF610,0xF62D,0xF65F,0xF660,0xF692-0xF693,0xF6D7-0xF6D8,0xF6DC-0xF6DE,0xF6FB-0xF6FC,0xF71D,0xF720,0xF733,0xF748,0xF762-0xF763,0xF766-0xF767,0xF780,0xF78E,0xF797,0xF79A-0xF79B,0xF7C1,0xF7DC,0xF7FA,0xF80D,0xF85B,0xF86F,0xF89D,0xF89F,0xF8BD,0xF8CA,0xF8CC,0xF8EB-0xF8EF,0xF8F6,0xF8FF。
为保证采集的藏文字符样本能满足实际应用对实现高精度联机手写藏文字符分类器的要求,采集过程应遵循以下原则:
1.不同书写者应完成所有选取的藏文字符样本的书写,并且每个书写者只能书写一次,以确保手写风格的稳定性。
2.书写者在手写当前字符样本时,并不知道下一个要书写的字符样本。
3.对书写者的书写质量无任何限制,书写者按日常的手写方式完成书写。
4.所有的书写者均来自藏族地区,分别来自中央民族大学、西藏大学和青海师范大学的在校大学生以及西藏自治区受过高等教育的政府公务人员。
根据所有书写者的信息,按性别和年龄分类的比例进行统计,如表1和2所示。
表1书写者的性别分布
表2书写者的年龄分布
在联机手写藏文样本的采集过程中,对于用户输入的任何藏文字符都按其《基本集》或者《扩充集A》中的编码存入对应的文件中。在存入文件时,使用三行来记录这个字符的所有信息:
Line1:总笔划数,一个正整数。
Line2:总点数,一个正整数。
下面是收集的一个Unicode编码是0xF300的藏文字符的数据:
5/*该联机手写藏文字符共5个笔划*/
188/*该联机手写藏文字符共188个信息点*/
(57,85,1510,813)(56,86,1056,4449)...(114,89,1451,3979)(114,89,4224,4995)(-1,-1,0,0)/*第一笔结束*/(88,94,3962,270)(86,93,1513,1664)...(0,96,2440,1368)(0,94,1502,4811)(-1,-1,0,0)/*第二笔结束*/(93,90,198,4257)(95,89,4177,46)...(148,198,8,4224)(147,198,1529,453)(-1,-1,0,0)/*第三笔结束*/(145,89,4783,3927)(142,90,1890,674)...155,199,468,1815)(155,199,4120,4210)(-1,-1,0,0)/*第四笔结束*/(44,57,116,323)(43,58,2,2053)...(83,65,540,4071)(83,66,4577,1260)(-1,-1,0,0)(-1,0,0,0)/*第五笔结束并且该藏文字符结束*/
为便于需求者的使用,将原始数据格式转换为POT格式的数据,每个POT文件中包括每个书写者的所有字符的点轨迹序列。POT格式如图2所示。
图2POT文件的存储格式
该联机手写藏文样本数据集中的手写藏文字符除具有藏语言本身的特点外,不同地域、不同人都导致手写藏文字符呈现多类型的特点。图3和图4分别给出了某个书写者的部分手写样本和某一类字符来自不同书写者的样本。
图3同一书写者的部分手写藏文样本
图4来自不同书写者的某一类藏文字符样本
1.藏文楷体和草体手写样本的形状差异大
藏文手写体分两大类,大体相当于汉字手写体中的楷书和草书。藏文中的草体写法源于藏族中的原贵族阶层,现在多应用于拉萨地区及周边地区。手写藏文字符的书写特点如下:
1)第一笔在基线位置,且为直线型笔划。但这只限于藏文手写楷体,很多草体并没有书写基线,或者基线成弧状、曲线型。图5中的藏文草体联机手写样本数据中可以看出这个特点。
图5手写藏文字符中的楷体和草体
2)书写顺序:从基线位置开始,从上到下,若有上元音则最后一笔又到基线以上位置,这个原则对藏文手写草体不适用,参见图5藏文楷体和草体联机手写样本数据。
3)笔划方向:藏文手写输入时,同一笔划的输入方向是不确定的,这一点和汉字的手写输入习惯是有很大差别的。对于汉字字符,笔划的方向基本不会因为不同人的输入而发生变化,“提”和“撇”就是通过方向区分的。但在藏文手写输入时,一个“O”状结构,有些人可能顺时针输入,有些人可能逆时针输入。“提”和“撇”也没有任何的区分。
4)草体和楷体在形态上有巨大区别,没有经验的人很难认出一个藏文的手写草体形式,从图5中我们可以看出,藏文的草体并不是楷体的连笔形式。
2.存在大量相似字符
藏文字符中存在大量的相似字符,藏文的相似字符在结构上可以分为4类[10]:
1)除元音和外其余部分完全相同的字符;
2)由于和、和、和、和等,导致他们形成叠加字的字符相似;
3)由于下元音和下加字相似而形成的相似字符,如:和、和、和、和、和、和、和、和、和、和、和、和;
4)其他相似性。如和、和等。
大量的相似藏文字符在手写中更加相似,是联机手写藏文识别中要解决的难点[10]。图6给出部分藏文的相似字符,其中上下两个字符为相似字符,可以看出手写体没有印刷体规范,字形更加相似。
图6相似藏文字符样例
3.藏文识别相对于汉字识别的特点
1)藏文字符的高度不等,所有字符、音节点、单垂线依上平线对齐,上平线之上有或没有元音,上平线之下因字母、叠加层数的不同而不等长,从图5、图6中的藏文字符样例中可以看出这个特点;但汉字是一个方块图形符号字,除个别字符外,同一字体同一字号字的宽度和高度基本一致。
2)藏文编码字符集标准规定:信息处理和信息交换用藏文24×48点阵(横行点数×纵列点数)字型,宽高比例为1︰2。而汉字字符的宽高比例基本是1︰1。
3)汉字识别的主要困难是数量多、文字图形结构复杂、字体多,许多字在图形上相似等;藏文识别与汉字识别相比较,虽然字符集小,但相似藏文字符比例相对于汉字来说要更多[10]。
4)藏文字符中曲线型(或圆弧型)的笔划占有一定的比例,如辅音字母等中均有弯曲度较大的笔划;对于藏文的手写草体,这个比例会大很多。图5中的联机藏文手写样本可以反应这个特点,尤其是草体。
根据采集样本的方式,共采集了150个书写者的联机手写藏文样本数据,每个人书写预先指定的583个藏文字符。将该数据集分成标准的训练集和测试集,其中训练集包括120个书写者数据,测试集包括30个书写者数据。该数据集按照识别率(书写质量)分为好、中、坏三种质量,从这三种书写质量的样本中都挑出相同比例的作为训练集和测试集。
在预处理阶段,我们采用了基于数学形态学中的去噪方法。在特征提取阶段,采用8方向特征提取方法[11],提取到512维特征,然后采用LDA方法将512维特征降到160维。修正的二次判别函数分类器[12]对降维后的特征进行分类,表3给出了采用不同K维的主特征向量的识别结果,该结果可以用于对比实验方法的基准。
表3识别精度
将该数据集划分成标准的训练集和测试集后,可以用来做字符识别方面的研究。主要包括:
1.联机手写藏文字符识别
无约束联机手写藏文字符识别仍然是一个难题,当前识别率仍然较低,单个藏文字符识别器的性能对藏文音节及文本行识别的性能也有重要影响。
2.书写人适应
联机手写藏文数据集是基于书写者进行保存的,一个书写者的数据保存在一个文件夹里,这样保存的好处是可以支持书写人适应算法的评价。书写人自适应在手写识别中非常有用,因为训练数据库再大,也不可能涵盖所有的书写风格,且一个书写者在不同的条件下书写风格也是不一样的。联机手写藏文数据集既可以使用标记样本进行监督自适应(supervisedadaptation)的研究,也可以支持无监督适应(unsupervisedadaptation)。当一个书写者写了一些手写藏文字符样本后,风格一致性信息可以帮助分类器来适应书写者风格。由于书写单字的风格和书写文本的风格差异很大,所以书写者适应在字符串识别中尤其有用。
本工作受中国科学院信息化建设“科学数据库”项目资助,作者所在研究组的各位同事和同学参与了该数据库建设,特此感谢。
马龙龙(1980—),男,山西省临汾市人,博士,副研究员,研究方向为文字识别。主要负责数据的收集和整理,数据的实验评估。
吴健(1962—),男,北京人,研究员,研究方向为多语言文字信息处理。主要负责项目组织及技术指导。
[1]NakagawaM,HigashiyamaT,YamanakaY,etal.On-linehandwrittencharacterpatterndatabasesampledinasequenceofsentenceswithoutanywritinginstructions[C]//4thInternationalConferenceDocumentAnalysisandRecognition(ICDAR'97),2-VolumeSet,August18-20,1997,Ulm,Germany,Proceedings,1997:376~381.
[2]MatsumotoK,FukushimaT,NakagawaM,Collectionandanalysisofon-linehandwrittenJapanesecharacterpatterns[C]//6thInternationalConferenceDocumentAnalysisandRecognition(ICDAR'2001),September10-13,2001,Seattle,USA,Proceedings,2001:496~500.
[3]GuyonI,SchomakerL,PlamondonR,LibermanM,JanetS,UNIPENprojectofon-linedataexchangeandrecognizerbenchmarks[C]//12thInternationalConferenceonPatternRecognition(ICPR'94),October9-13,1994,Jerusalem,Israel,Proceedings,1994:29~33.
[4]L.Jin,Y.Gao,G.Liu,Y.Li,andK.Ding.SCUT-COUCH2009―acomprehensiveonlineunconstrainedChinesehandwritingdatabaseandbenchmarkevaluation[J],InternationalJournalonDocumentAnalysisandRecognition(IJDAR),14(1):53–64,2011.
[5]S.Zhou,Q.Chen,andX.Wang.HIT-OR3C:anopeningrecognitioncorpusforChinesecharacters[C]//9thIAPRInternationalWorkshoponDocumentAnalysisSystems(DAS'2010),June9-11,2010,Boston,USA,Proceedings,2010:223~230.
[6]C.L.Liu,F.Yin,D.H.Wang,Q.F.Wang,OnlineandofflinehandwrittenChinesecharacterrecognition:benchmarkingonnewdatabases[C]//2ndCJKJointWorkshoponPatternRecognition(CJKPR'2010),November4-6,2010,Fukuoka,Japan,Proceedings,2010.
[7]C.Viard-Gaudin,P.M.Lallican,S.Knerr,andP.Binter.TheIRESTEOn/Off(IRONOFF)dualhandwritingdatabase[C]//5thInternationalConferenceDocumentAnalysisandRecognition(ICDAR'99),September20-22,1999,Bangalore,India,Proceedings,1999:455~458.
[8]LonglongMa,JianWu,HuidanLiu,MRG-OHTCdatabaseforonlinehandwrittenTibetancharacterrecognition[C]//11thInternationalConferenceDocumentAnalysisandRecognition(ICDAR'2011),September18-21,2011,Beijing,China,Proceedings,2011:207~211.
[9]信息技术藏文编码字符集扩充集A编制说明[S].北京:中国标准出版社,2005.
[10]王维兰,丁晓青.藏文识别中相似字符的区分研究[J],中文信息学报,2002,16:60~65.
[11]孙嫣,藏文联机手写识别若干算法研究[D],中国科学院大学硕士学位论文,2009.
[12]KimuraF,TakashinaK,TsuruokaS,etal.Modifiedquadraticdiscriminantfunctionsandtheapplicationtochinesecharacterrecognition[J],IEEETransactionsonPatternAnalysis&MachineIntelligence,1987,9(1):149~153.
马龙龙,吴健.联机手写藏文字符数据集.ScienceDataBank.DOI:10.11922/sciencedb.120.35.
请使用以下方式引用本文:
马龙龙,吴健.联机手写藏文字符数据集.中国科学数据,2016.DOI:10.11922/csdata.120.2015.0027.
1、本网站上的所有论文,仅供学习和研究使用。
3、本网站也不承担用户因使用这些下载资源对自己和他人造成任何形式的损失或伤害。
4、未经本网站的明确许可,任何人不得大量链接本站下载资源;不得复制或仿造本网站。本网站对其自行开发的或和他人共同开发的所有内容、技术手段和服务拥有全部知识产权,任何人不得侵害或破坏,也不得擅自使用!