图像识别方法和装置与流程

本发明涉及计算机领域,更具体地涉及一种图像识别方法和装置。

背景技术:

在很多领域,需要对诸如身份证的证照或类似的具有一定文字排布规则的非证照对象中的文字进行识别。以证照为例,典型的证照识别流程是:用户提供一张证照图像,识别引擎从证照图像中提取文字信息并输出给用户。

以上流程的缺陷在于:系统无法利用关于待识别证照的先验知识,特别是关于各个域(包含文字的区域)的先验知识来改进识别结果。例如按法律规定,中国居民身份证的背面的签发机关只能是县级公安机关。但是在现有流程中,无法将县级公安机关的列表提供给识别引擎,从而无法利用这一信息。

技术实现要素:

考虑到上述问题而提出了本发明。本发明提供了一种图像识别方法和装置。

根据本发明一方面,提供了一种图像识别方法,包括:从待识别图像中提取包含待识别对象的图像块;对所述图像块中的文字进行文字识别,以获得初级识别结果;获取描述文件,所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息;将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐;以及利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正,以获得最终识别结果。

示例性地,在所述对所述图像块中的文字进行文字识别之后,所述图像识别方法进一步包括:输出所述初级识别结果,以供用户查看。

示例性地,在所述利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正之前,所述图像识别方法进一步包括:接收用户修正指令;以及根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

示例性地,在所述接收用户修正指令之前,所述图像识别方法进一步包括:提供关于所述描述文件中的所有约束信息的标识信息,以供用户选择,其中,所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

示例性地,所述获取描述文件包括:接收用户输入的初始文件;以及对所述初始文件进行解析,以获得所述描述文件。

示例性地,在所述将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐之前,所述图像识别方法进一步包括:检查所述描述文件是否存在格式错误,如果存在格式错误,则发出提醒信息。

示例性地,所述获取描述文件包括:根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

示例性地,所述图像块中的文字分布于一个或多个域中,所述约束信息包括所述一个或多个域中的每一个的域名、坐标和属性信息。

示例性地,所述属性信息包括用于指向属性文档的指示信息,所述属性文档包括其所对应的域中可能出现的所有文字。

示例性地,所述图像识别方法还包括:接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

根据本发明另一方面,提供了一种图像识别装置,包括提取模块、文字识别模块、文件获取模块、对齐模块和修正模块。提取模块用于从待识别图像中提取包含待识别对象的图像块。文字识别模块用于对所述图像块中的文字进行文字识别,以获得初级识别结果。文件获取模块用于获取描述文件,所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息。对齐模块用于将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐。修正模块用于利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正,以获得最终识别结果。

示例性地,所述图像识别装置进一步包括:输出模块,用于输出所述初级识别结果,以供用户查看。

示例性地,所述图像识别装置进一步包括:指令接收模块,用于接收用户修正指令;以及选择模块,用于根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

示例性地,所述图像识别装置进一步包括:信息提供模块,用于提供关于所述描述文件中的所有约束信息的标识信息,以供用户选择,其中,所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

示例性地,所述文件获取模块包括:文件接收子模块,用于接收用户输入的初始文件;以及解析子模块,用于对所述初始文件进行解析,以获得所述描述文件。

示例性地,所述图像识别装置进一步包括:检查模块,用于在所述对齐模块将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐之前,检查所述描述文件是否存在格式错误,如果存在格式错误,则发出提醒信息。

示例性地,所述文件获取模块包括:文件选择子模块,用于根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

示例性地,所述图像识别装置进一步包括:属性文档获取模块,用于接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

根据本发明实施例的图像识别方法和装置,在从待识别图像中识别文字信息时,利用获取的描述文件修正文字识别结果,可以达到提高文字识别准确度和文字识别速度的效果。

附图说明

通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的图像识别方法和装置的示例电子设备的示意性框图;

图2示出根据本发明一个实施例的图像识别方法的示意性流程图;

图3示出示例性的身份证背面图像;

图4示出根据本发明另一实施例的图像识别方法的示意性流程图;

图5示出根据本发明另一实施例的图像识别方法的示意性流程图;

图6a示出根据一个示例的身份证图像的初级识别结果;

图6b示出对图6a所示的初级识别结果进行修正后获得的最终识别结果;

图7示出根据本发明另一实施例的图像识别方法的示意性流程图;

图8示出根据本发明一个实施例的图像识别装置的示意性框图;以及

图9示出根据本发明一个实施例的图像识别系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为减少文字识别的错误率并提高文字识别速度,根据本发明实施例,提出一种图像识别方法和装置。首先,参照图1来描述用于实现根据本发明实施例的图像识别方法和装置的示例电子设备100。

如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音),并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集待识别图像(例如证照图像等),并且将所采集的待识别图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解,图像采集装置110仅是示例,电子设备100可以不包括图像采集装置110。在这种情况下,可以利用其他图像采集装置采集待识别图像,并将采集的待识别图像发送给电子设备100。

示例性地,用于实现根据本发明实施例的图像识别方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面,将参考图2描述根据本发明实施例的图像识别方法。图2示出根据本发明一个实施例的图像识别方法200的示意性流程图。如图2所示,图像识别方法200包括以下步骤。

在步骤S210,从待识别图像中提取包含待识别对象的图像块。

待识别图像可以是任何合适的需要进行文字识别的图像,例如针对身份证采集的证照图像或其他类似的非证照图像等。待识别图像可以是摄像头采集到的原始图像,也可以是对原始图像进行预处理之后获得的图像。待识别对象可以是身份证、银行卡、营业执照等证照或类似的具有一定文字排布规则的非证照对象(诸如发票、支票等)。

步骤S210的操作可以包括裁剪操作。举例来说,在用户利用摄像头等图像采集装置采集其身份证的图像时,或多或少都要采集到一些背景物体。因此,可以在对待识别图像中的身份证文字进行识别之前,首先从待识别图像中提取包含待识别对象,即身份证,的图像块,即将无关的背景物体去除,仅提取出身份证所在的那块图像块。参见图3,示出示例性的身份证背面图像。在图3中,除身份证之外,还采集到了计算机、墙壁等无关物体,因此需要将这些无关物体去除。背景去除得越干净,随后执行的文字识别的准确率越高。因此,在步骤S210中,希望提取出的图像块中尽可能仅包含待识别对象。

可选地,在提取出包含待识别对象的图像块之后,可以对图像块进行一定预处理,例如对图像块进行倾斜校正、对比度调整等,从而使得预处理后的图像块能够更容易地进行文字识别。

待识别图像可以由诸如移动终端的客户端设备发送到电子设备100以由电子设备100的处理器102进行处理,也可以由电子设备100包括的图像采集装置110(例如摄像头)采集并传送到处理器102进行处理。

在步骤S220,对图像块中的文字进行文字识别,以获得初级识别结果。

可以采用常规的光学字符识别(OCR)方式识别图像块中的文字。通过文字识别,可以将图像块中所包含的文字识别出来。例如,可以识别身份证图像中的姓名、性别、民族、出生日期、住址、身份证号码、签发机关、有效期限等信息。

当然,在此步骤中识别出的内容可以包括分类信息,也可以包括分类信息对应的具体身份信息。例如,对于身份证中的姓名一栏中,在身份证中其形式通常为“姓名XXX”。以“姓名张三”为例,其中“姓名”二字为分类信息,“张三”二字为具体身份信息。在文字识别过程中,可以将“姓名”二字及其后面跟随的“张三”二字识别出来。为方便描述,本文将一定大小的包含文字的子图像块(对应于待识别对象中的一个区域)称为“域”,也就是说,图像块中的文字是分布于一个或多个域中的。例如,包含“姓名”二字的子图像块可以视为一个域,包含“张三”二字的子图像块可以视为一个域,或者可以将包含“姓名张三”的整个子图像块视为一个域。域的划分可以根据需要确定,本发明不对此进行限制。

步骤S220中获得的文字识别结果是初级识别结果,随后还可以利用约束信息对其进行修正。经过修正后的识别结果是最终的文字识别结果。

在步骤S230,获取描述文件,所述描述文件包括用于指示图像块中的文字需要符合的规则要求的约束信息。

描述文件可以是用户经由输入装置106输入电子设备100的或者可以是预先存储在存储装置104中的。

描述文件是一个预先定义好的文档,其可以描述待识别对象中的文字通常遵循的格式和属性,也就是说,其规定了图像块中的文字需要符合的规则要求。描述文件可以用于提供关于待识别对象的先验信息,从而帮助对初级识别结果进行修正。

描述文件可以具有任何合适的格式。示例性地,一种描述文件的典型格式如下:描述文件由多行组成,其中一行包括描述文件中规定的图像大小;其余每行包括域名、对应的域出现的位置(坐标)和属性信息。其中,“属性”部分可以指向用户提供或预先存储的属性文档,还可以包括该域对应的文字所具有的属性(例如,该域可能出现的文字是数字、字母或汉字等的属性)。

例如,当目前需求是识别身份证背面时,待识别图像为一针对身份证背面采集的图像。可以按以下约定好的格式提供描述文件,其内容为:

图像宽200高100

域名:签发机关,坐标:(60,80)(180,90),属性:'中国县级公安机关大全.txt'

域名:有效期限,坐标:(60,95)(190,105),属性:'年.月.日-年.月.日'。

在上述示例中,描述文件规定的图像大小为宽200像素、高100像素的图像,对于域名为“签发机关”的域,其位置位于图像中坐标(60,80)(180,90)处,对应的属性信息指向用户提供或者预先存储的属性文档“中国县级公安机关大全.txt”;对于域名为“有效期限”的域,其位置位于图像中坐标(60,95)(190,105)处,对应的属性表示该域的文字应该是数字。

在步骤S240,将图像块的坐标系与描述文件中规定的图像坐标系对齐。

描述文件规定对包含待识别对象的图像块中的文字的规则要求,根据这些规定好的规则要求可以判断初级识别结果是否准确。对于不准确的初级识别结果可以进行修正。

为了实现上述目的,需要将图像块的坐标系与描述文件中规定的图像坐标系对齐。下面举例说明。应注意,在本文的示例中,所描述的坐标系的单位为像素,但其并非对本发明的限制。

例如,在描述文件中指明“图像宽200高100”,而图像块的大小为宽300高150时,需要将描述文件中的各个域的坐标乘以1.5或者将图像块的坐标除以1.5。当然,如果图像块的大小为宽300高200时,需要将描述文件中的各个域的横坐标乘以1.5、纵坐标乘以2,或者将图像块的横坐标除以1.5、纵坐标除以2。总之,在步骤S240中,需要将图像块的坐标系与描述文件规定的图像坐标系对齐,使得图像块的大小与描述文件规定的图像大小保持一致。

在步骤S250,利用描述文件中的至少部分约束信息对初级识别结果进行修正,以获得最终识别结果。

约束信息是指描述文件中用于指示图像块中的文字需要符合的规则要求的信息,诸如上述示例中的“域名:签发机关,坐标:(60,80)(180,90),属性:'中国县级公安机关大全.txt'”的信息。

由于已经将图像块的坐标系与描述文件规定的图像坐标系对齐,因此可以根据图像块的坐标与描述文件中的各个域的坐标将图像块中的子图像块与描述文件中的域对应起来。通常来说,诸如身份证的待识别对象中的文字的位置大致是固定的,因此这种对应关系的确定准确度是很高的。

下面举例说明如何利用约束信息修正初级识别结果。例如,对于身份证中的有效期限域来说,其约束信息为“域名:有效期限,坐标:(60,95)(190,105),属性:'年.月.日-年.月.日'”,也就是说在属性为“年.月.日-年.月.日”的文字段中,所识别出的文字应当符合年、月、日的格式和属性。这意味着在有效期限域所识别出的文字不可能是字母。因此,对于将数字“0”识别为字母“O”或“o”、将数字“1”识别为小写字母“l”或大写字母“I”这样的错误,可以将字母修正为数字。另外,“年”前面不可能出现1001这样不合理的数字,因此在这种情况下,可以视情况将“1001年”修正为“2001年”。

图2所示的图像识别方法200中的各步骤的执行顺序仅是示例而非限制。本发明实施例提供的图像识别方法可以具有其他合理的执行顺序,例如,步骤S230可以在步骤S210之前、在步骤S210之后及步骤S220之前、或者与步骤S210或S220同时执行,步骤S220可以在步骤S240之后或与步骤S240同时执行。

根据本发明实施例的图像识别方法,在从待识别图像中识别文字信息时,利用获取的描述文件修正文字识别结果,可以达到提高文字识别准确度和文字识别速度的效果。

示例性地,根据本发明实施例的图像识别方法可以在具有存储器和处理器的设备、装置或者系统中实现。

图4示出根据本发明另一实施例的图像识别方法400的示意性流程图。图4所示的图像识别方法400的步骤S410、S420和S440-S460分别与图2所示的图像识别方法200的步骤S210-S250相对应,本领域技术人员结合上述对图2所示的图像识别方法200的描述可以理解本实施例的上述步骤,在此不再赘述。在本实施例中,在步骤S420之后,图像识别方法400可以进一步包括步骤S430。

在步骤S430,输出初级识别结果,以供用户查看。

可以经由诸如显示屏的输出装置输出初级识别结果,以供用户查看。用户查看初级识别结果之后,可以判断初级识别结果是否存在错误,对于存在错误的情况,可以指示电子设备100进行修正。

图5示出根据本发明另一实施例的图像识别方法500的示意性流程图。图5所示的图像识别方法500的步骤S510-S540和S570分别与图2所示的图像识别方法200的步骤S210-S250相对应,本领域技术人员结合上述对图2所示的图像识别方法200的描述可以理解本实施例的上述步骤,在此不再赘述。在本实施例中,在步骤S570之前,图像识别方法500可以进一步包括步骤S550和S560。

在步骤S550,接收用户修正指令。

在用户发现初级识别结果的错误之后,可以指示电子设备100对错误之处进行修正。为此,用户可以经由输入装置106向电子设备100输入用户修正指令,电子设备100接收用户输入的修正指令。

在步骤S560,根据用户修正指令从描述文件中选择至少部分约束信息。

下面结合图6a-6b进行描述。图6a示出根据一个示例的身份证图像的初级识别结果,图6b示出对图6a所示的初级识别结果进行修正后获得的最终识别结果。

如图6a所示,在初级识别结果中,将签发机关域中的字符“市”识别成了字符“布”,将字符“海”识别成了字符“诲”,将有效期限域中的字符“1”识别成了字符“7”。

如上文所述,可以将初级识别结果显示在显示屏上以供用户查看。用户发现这些错误之后,可以指示电子设备100对签发机关域和有效期限域进行修正。对于签发机关域来说,描述文件的属性信息中指示了“中国县级公安机关大全.txt”。电子设备100根据该属性信息的指示,可以获取该txt属性文档。该txt属性文档可以是预先存储在存储器中的,也可以是由用户输入(即上传)的。当获取该txt属性文档之后,再根据txt属性文档中记载的所有县级公安机关的名称找出初级识别结果中的公安机关域的识别错误并对该错误进行修正,使得修正后的识别结果符合属性信息所指示的属性文档中的名称。同样,也可以根据描述文件中的有效期限域信息对初级识别结果中的有效期限域的识别错误进行修正。图6b示出的是修正后的结果。从图6b中可以看出,图6a中的错误均已得到修正。

应当理解,以上步骤S550和S560也可以在图5所示的步骤S540之前执行。另外,在图4所示的图像识别方法400中,也可以进一步执行以上步骤S550和S560,例如可以在步骤S460之前执行步骤S550和S560。

在现有技术中,未向用户提供与用户交互以控制文字识别结果的修正的功能,因此用户无法利用描述文件控制文字识别结果的修正。而根据本发明实施例,可以接收用户修正指令并基于该指令修正初级识别结果。由于用户对错误的识别率通常比较高,因此这种方法可以有效提高文字识别的准确度。

图7示出根据本发明另一实施例的图像识别方法700的示意性流程图。图7所示的图像识别方法700的步骤S710-S740和S760-S780分别与图5所示的图像识别方法500的步骤S510至S570相对应,本领域技术人员结合上述对图5所示的图像识别方法500的描述可以理解本实施例的上述步骤,在此不再赘述。在本实施例中,在步骤S760之前,图像识别方法700可以进一步包括步骤S750。

在步骤S750,提供关于描述文件中的所有约束信息的标识信息,以供用户选择,其中,用户修正指令包括用户输入的、针对关于至少部分约束信息的标识信息的选择指令。

根据本发明实施例,上述步骤S230(S440、S530或S730)可以包括:接收用户输入的初始文件;以及对初始文件进行解析,以获得描述文件。

如上文所述,描述文件可以来自用户,也可以由系统预先存储。在由用户输入的情况下,可以对用户输入的初始文件进行解析,即将其转换为系统可以识别的格式,进而获得描述文件。

在现有技术中,未向用户提供与用户交互以获得描述文件的功能,因此即使用户拥有有益的先验知识,也无法将其用于文字识别结果的改进。而根据本发明实施例,可以接收来自用户的描述文件,这有利于进一步提高文字识别结果的准确度。

根据本发明实施例,在步骤S240(S450、S540或S740)之前,图像识别方法200(400、500或700)可以进一步包括:检查描述文件是否存在格式错误,如果存在格式错误,则发出提醒信息。

例如,如果在用户提供的描述文件中,在关于签发机关域的信息中缺少属性信息或者属性信息的格式不符合要求,则可以向用户发出提醒信息,提醒用户其所上传的描述文件出错。用户在接收到提醒信息之后,可以提供新的符合要求的描述文件。随后可以利用该新提供的描述文件进行初级识别结果的修正。

通过发出提醒信息可以及时通知用户描述文件的错误,以保证利用合格的描述文件来对文字识别结果进行修正,从而进一步确保文字识别结果的准确性。

根据本发明实施例,上述步骤S230(S440、S530或S730)可以包括:根据待识别对象的类别从预先存储在存储器中的描述文件集合中选择描述文件。

可以预先在存储器中存储与多种待识别对象相对应的描述文件,即描述文件集合。例如,可以分别存储与身份证、银行卡、营业执照等证照相对应的描述文件。当发现待识别对象是身份证时,从描述文件集合中选择与身份证相对应的描述文件。

根据本发明实施例,图像块中的文字分布于一个或多个域中,约束信息包括一个或多个域中的每一个的域名、坐标和属性信息。上文已经结合示例描述了约束信息包括的内容及其表示形式,在此不再赘述。

根据本发明实施例,属性信息包括用于指向属性文档的指示信息,所述属性文档包括其所对应的域中可能出现的所有文字。如上文所述,对于身份证的签发机关域来说,其约束信息可以是“域名:签发机关,坐标:(60,80)(180,90),属性:'中国县级公安机关大全.txt'”,其中,属性信息中的“中国县级公安机关大全.txt”指向一个包含中国县级公安机关的名称的txt属性文档。该txt属性文档即本文所述的属性文档,其中包括了在签发机关域中可能出现的所有文字。

根据本发明实施例,图像识别方法200(400、500或700)可以进一步包括:接收用户输入的属性文档或获取预先存储在存储器中的属性文档。

根据本发明另一方面,提供一种图像识别装置。图8示出了根据本发明一个实施例的图像识别装置800的示意性框图。

如图8所示,根据本发明实施例的图像识别装置800包括提取模块810、文字识别模块820、文件获取模块830、对齐模块840和修正模块850。所述各个模块可分别执行上文中结合图2-7描述的图像识别方法的各个步骤/功能。以下仅对该图像识别装置800的各模块的主要功能进行描述,而省略以上已经描述过的细节内容。

提取模块810用于从待识别图像中提取包含待识别对象的图像块。提取模块810可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

文字识别模块820用于对所述图像块中的文字进行文字识别,以获得初级识别结果。文字识别模块820可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

文件获取模块830用于获取描述文件,所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息。文件获取模块830可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

对齐模块840用于将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐。对齐模块840可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

修正模块850用于利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正,以获得最终识别结果。修正模块850可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例,所述图像识别装置800可以进一步包括:输出模块,用于输出所述初级识别结果,以供用户查看。

根据本发明实施例,所述图像识别装置800可以进一步包括:指令接收模块,用于接收用户修正指令;以及选择模块,用于根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

根据本发明实施例,所述图像识别装置800可以进一步包括:信息提供模块,用于提供关于所述描述文件中的所有约束信息的标识信息,以供用户选择,其中,所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

根据本发明实施例,所述文件获取模块830可以包括:文件接收子模块,用于接收用户输入的初始文件;以及解析子模块,用于对所述初始文件进行解析,以获得所述描述文件。

根据本发明实施例,所述图像识别装置800可以进一步包括:检查模块,用于在所述对齐模块将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐之前,检查所述描述文件是否存在格式错误,如果存在格式错误,则发出提醒信息。

根据本发明实施例,所述文件获取模块830可以包括:文件选择子模块,用于根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

根据本发明实施例,所述图像块中的文字分布于一个或多个域中,所述约束信息包括所述一个或多个域中的每一个的域名、坐标和属性信息。

根据本发明实施例,所述属性信息包括用于指向属性文档的指示信息,所述属性文档包括其所对应的域中可能出现的所有文字。

根据本发明实施例,所述图像识别装置800可以进一步包括:属性文档获取模块,用于接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

图9示出了根据本发明一个实施例的图像识别系统900的示意性框图。图像识别系统900包括图像采集装置910、存储装置920、以及处理器930。

图像采集装置910用于采集待识别图像。图像采集装置910是可选的,图像识别系统900可以不包括图像采集装置910。

所述存储装置920存储用于实现根据本发明实施例的图像识别方法中的相应步骤的程序代码。

所述处理器930用于运行所述存储装置920中存储的程序代码,以执行根据本发明实施例的图像识别方法的相应步骤,并且用于实现根据本发明实施例的图像识别装置中的提取模块810、文字识别模块820、文件获取模块830、对齐模块840和修正模块850。

在一个实施例中,所述程序代码被所述处理器930运行时使所述图像识别系统900执行以下步骤:从待识别图像中提取包含待识别对象的图像块;对所述图像块中的文字进行文字识别,以获得初级识别结果;获取描述文件,所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息;将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐;以及利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正,以获得最终识别结果。

在一个实施例中,在所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的对所述图像块中的文字进行文字识别的步骤之后,所述程序代码被所述处理器930运行时使所述图像识别系统900进一步执行:输出所述初级识别结果,以供用户查看。

在一个实施例中,在所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正的步骤之前,所述程序代码被所述处理器930运行时使所述图像识别系统900进一步执行:接收用户修正指令;以及根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

在一个实施例中,在所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的接收用户修正指令的步骤之前,所述程序代码被所述处理器930运行时使所述图像识别系统900进一步执行:提供关于所述描述文件中的所有约束信息的标识信息,以供用户选择,其中,所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

在一个实施例中,所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的获取描述文件的步骤包括:接收用户输入的初始文件;以及对所述初始文件进行解析,以获得所述描述文件。

在一个实施例中,在所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐的步骤之前,所述程序代码被所述处理器930运行时使所述图像识别系统900进一步执行:检查所述描述文件是否存在格式错误,如果存在格式错误,则发出提醒信息。

在一个实施例中,所述程序代码被所述处理器930运行时使所述图像识别系统900所执行的获取描述文件的步骤包括:根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

在一个实施例中,所述图像块中的文字分布于一个或多个域中,所述约束信息包括所述一个或多个域中的每一个的域名、坐标和属性信息。

在一个实施例中,所述属性信息包括用于指向属性文档的指示信息,所述属性文档包括其所对应的域中可能出现的所有文字。

在一个实施例中,所述程序代码被所述处理器930运行时还使所述图像识别系统900执行:接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

在一个实施例中,所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的图像识别装置的各个功能模块,并且/或者可以执行根据本发明实施例的图像识别方法。

在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤:从待识别图像中提取包含待识别对象的图像块;对所述图像块中的文字进行文字识别,以获得初级识别结果;获取描述文件,所述描述文件包括用于指示所述图像块中的文字需要符合的规则要求的约束信息;将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐;以及利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正,以获得最终识别结果。

在一个实施例中,在所述计算机程序指令在被计算机运行时使所述计算机所执行的对所述图像块中的文字进行文字识别的步骤之后,所述计算机程序指令在被计算机运行时使所述计算机进一步执行:输出所述初级识别结果,以供用户查看。

在一个实施例中,在所述计算机程序指令在被计算机运行时使所述计算机所执行的利用所述描述文件中的至少部分约束信息对所述初级识别结果进行修正的步骤之前,所述计算机程序指令在被计算机运行时使所述计算机进一步执行:接收用户修正指令;以及根据所述用户修正指令从所述描述文件中选择所述至少部分约束信息。

在一个实施例中,在所述计算机程序指令在被计算机运行时使所述计算机所执行的接收用户修正指令的步骤之前,所述计算机程序指令在被计算机运行时使所述计算机进一步执行:提供关于所述描述文件中的所有约束信息的标识信息,以供用户选择,其中,所述用户修正指令包括所述用户输入的、针对关于所述至少部分约束信息的标识信息的选择指令。

在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的获取描述文件的步骤包括:接收用户输入的初始文件;以及对所述初始文件进行解析,以获得所述描述文件。

在一个实施例中,在所述计算机程序指令在被计算机运行时使所述计算机所执行的将所述图像块的坐标系与所述描述文件中规定的图像坐标系对齐的步骤之前,所述计算机程序指令在被计算机运行时使所述计算机进一步执行:检查所述描述文件是否存在格式错误,如果存在格式错误,则发出提醒信息。

在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的获取描述文件的步骤包括:根据所述待识别对象的类别从预先存储在存储器中的描述文件集合中选择所述描述文件。

在一个实施例中,所述计算机程序指令在被计算机运行时,还使所述计算机执行:接收用户输入的所述属性文档或获取预先存储在存储器中的所述属性文档。

根据本发明实施例的图像识别系统中的各模块可以通过根据本发明实施例的实施图像识别的电子设备的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的图像识别方法及装置,在从待识别图像中识别文字信息时,利用获取的描述文件修正文字识别结果,可以达到提高文字识别准确度和文字识别速度的效果。

虽然在本文的描述中主要以身份证识别为例对本发明提供的图像识别方法和装置进行描述,但这不应构成对本发明的限制。根据本发明实施例的图像识别方法和装置可以应用于多种图像识别领域,例如可以对社保证、资质证、银行卡、营业执照等证照上的信息或其他合适的非证照对象(例如支票、发票等)上的信息进行识别。

尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图像识别装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

THE END
1.模板匹配——图像识别概述文章浏览阅读129次,点赞9次,收藏2次。图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。文字识别的研究是从1950年开始的,一般是识别字母、数字和符https://blog.csdn.net/weixin_42291376/article/details/143456894
2.机器视觉系统高效的图像识别与处理技术机器视觉系统作为一种高效的图像识别与处理技术,在现代计算机视觉领域占据了重要地位。它通过模仿人类的视觉功能,能够分析和理解图像中的信息,为工业自动化、医疗诊断、交通监控等多个领域提供强大的支持。那么,我们如何才能提高这套复杂系统的性能呢? 如何有效学习图像特征? https://www.bcioqpgw.cn/cai-dian/349872.html
3.机器视觉技术人工智能在图像识别和分析中的作用人工智能的范围无处不在,它正在改变我们生活的方方面面,尤其是在图像识别和分析领域。机器视觉技术是人工智能的一个重要分支,它使得计算机能够通过摄像头或其他传感器捕捉到世界,并理解其中所包含的信息。 1. 什么是机器视觉? 机器视觉是一门科学与工程,旨在为计算机系统提供“看到”能力,使它们能够处理、解释并从图像https://www.iktpfbwjvk.cn/zhi-neng/552291.html
4.java版图像识别mob64ca12d94299的技术博客java版图像识别,#Java版图像识别的科普图像识别技术是计算机视觉领域中的一项重要任务,它使得计算机能够“看懂”图像并从中提取出有用的信息。在Java中,我们可以利用一些常用的库来实现图像识别功能。本文将介绍一种简单的图像识别实现方法,并通过代码示例阐明其核心概https://blog.51cto.com/u_16213336/12722140
5.什么是图像识别与理解?图像识别与理解是指通过对图像中各种不同的物体特征进行定量化描述后,将其所期望获得的目标物进行提取,并且对所提取的目标物进行一定的定量分析。比如要从一幅照片上确定是否包含某个犯罪分子的人脸信息,就需要先将照片上的人脸检测出来,进而将检测出来的人脸区域进行分析,确定其是否是该犯罪分子。https://www.shuashuati.com/ti/76cb0bcf35ab43f68bd363ad77bd7b67.html
6.什么是图像识别,图像识别的知识介绍图像识别是指利用计算机视觉技术对图像进行分析、识别和理解的过程。这种技术可以帮助计算机“看懂”图像,从而实现自动化处理、智能化判断等功能。随着深度学习等技术的不断发展,图像识别已经逐渐成为人工智能领域中的一个重要研究方向。 1.图像识别是什么 图像识别是一种利用计算机软件对数字图像进行分析、识别和理解的https://www.eefocus.com/baike/1545801.html
7.机器学习零基础?手把手教你用TensorFlow搭建图像识别系统(一)导语:这是Wolfgang Beyer的一篇博文,详细介绍了如何使用TensorFlow搭建一个简单的图像识别系统。本篇主要介绍图像识别和本试验中会遇到的一些概念。 如果你觉得这是一篇简单介绍人工智能、机器学习和深度学习的文章,那就错啦。你可以在网上搜罗到一大堆相关话题的文章,而这篇文章也并不是讨论人工智能是否会奴役人类或抢走https://www.leiphone.com/category/ai/Y4uyEktkkwb5YhJM.html
8.科学网—如何用Python和深度神经网络识别图像?你早已听说过自动驾驶汽车的神奇吧?没有机器对图像的辨识,能做到吗? 你的好友可能(不止一次)给你演示如何用新买的iPhone X做面部识别解锁了吧?没有机器对图像的辨识,能做到吗? 医学领域里,计算机对于科学影像(如X光片)的分析能力,已经超过有多年从业经验的医生了。没有机器对图像的辨识,能做到吗? https://wap.sciencenet.cn/blog-377709-1091943.html
9.ni图像识别linuxninilinux腾讯云开发者社区图像识别之augmix augmix: https://github.com/google-research/augmix 5.3K10 图像识别——突破与应用 最近,图像识别领域发布了白皮书,简单翻译一下做个总结。--- [2]图像识别图像识别的目标是识别图像中的对象和人,并理解上下文。图像识别属于机器知觉,机器知觉是机器学习(ML)和人工智能(AI)的一部分。https://cloud.tencent.cn/developer/information/ni%E5%9B%BE%E5%83%8F%E8%AF%86%E5%88%AB
10.ocr图片识别技术是什么?OCR的作用有哪些?可以放进口袋的扫描大师 ocr图片识别技术是什么?OCR的作用有哪些? ocr图片识别技术存在于很多地方,例如的银行的人脸识别系统,二维码识别系统。福昕全能王也运用了ocr图片识别技术进行工作,大家可以使用福昕全能王进行身份证的识别。 ocr图片识别技术是什么? ocr图像识别,是指利用计算机对图像进行处理、分析和理解,以识别https://www.foxitsoftware.cn/scanner/jiaocheng/691.html
11.图像识别模型袋鼠社区图像识别模型 - 图像识别模型是专门设计用于处理图像数据的机器学习模型,其目的是从给定的图像中提取特征、识别特定对象、场景、行为、属性或进行更复杂的视觉理解任务。这类模型广泛应用于诸多领域,如安防、自动驾驶、医疗诊断、零售分析、社交媒体、遥感、艺术与文化遗https://www.dtstack.com/bbs/article/16443
12.图像识别和chatgpt图像识别和ChatGPT:当AI遇上AI 当图像识别技术和机器学习交织在一起,我们迎来了一个新的智能时代。图像识别算法的发展和应用为我们提供了更多的机会,使我们能够以前所未有的方式与计算机进行交互https://tool.a5.cn/article/show/25254.html
13.图像识别图像识别,什么是图像识别,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用,应用场景,包括电子商务,游戏,汽车,制造业和教育。现阶段图像识别技术一般分为人脸识别与商品识别,人脸识别主要https://baike.c114.com.cn/view.php?id=28373-30A559E6
14.计算机视觉与图像识别考试.pdfD.实现图像超分辨率的技术通常不直接依赖于这些方法 9.计算机视觉中的场景理解技术中,哪种技术可以用于分析和理解图像中的内容及其上下 文关系? A.语义分割 B.实例分割 C.人脸识别 D.目标检测和识别 10.在计算机视觉中,哪种技术可以用于将二维图像转换为三维立体信息? https://m.book118.com/html/2024/1002/8074076035006132.shtm