基于MATLAB的图片中文字的提取及识别

基于MATLAB的图片中文字的提取及识别

邹浩,余龙,邹勇博,刘宇童,和振乔,李少梅

(西安电子科技大学电子工程学院,西安,710126)

摘要

随着现代社会的发展,信息的形式和数量正在迅猛增长。其中很大一部分是图像,图像可以把事物生动地呈现在我们面前,让我们更直观地接受信息。同时,计算机已经作为一种人们普遍使用的工具为人们的生产生活服务。从图像中提取文字属于信息智能化处理的前沿课题,是当前人工智能与模式识别领域中的研究热点。由于文字具有高级语义特征,对图片内容的理解、索引、检索具有重要作用,因此,研究图片文字提取具有重要的实际意义。又由于静态图像文字提取是动态图像文字提取的基础,故着重介绍了静态图像文字提取技术。

关键词:MATLAB图像处理文字提取文字识别

TextExtractionandRecognitioninImagesBasedonMATLABZOUHao,YUlong,ZOUYongbo,LIUYutong,HEZhenqiao,LIShaomei

(XidianUniversityElectronicEngineeringCollege,Xi'an,710126)

Abstract

Withthedevelopmentofsociety,theformandquantityofimformationareincreasingquickly.Alargepartofthemareimages,whichcanmakethingsvividlypresentedinfrontofus,letusmoreintuitivetoacceptinformation.Atthesametime,thecomputerhasbeenasawidelyusedtoolforpeople'sproductionandlivingservices.Extractingtextfromimagebelongstothefrontierofintelligentinformationprocessing,anditisthecurrenthotresearchtopicinthefieldofartificialintelligenceandpatternrecognition.Asthetextwithhigh-levelsemanticfeatureandplaysanimportantroleonunderstanding,indexingandretrievalimagecontent.Therefore,thestudyonextractingtextsfromimageshaveimportantactualmeanings.Andbecauseextractingtextsfromstillimagesisthebasisforextractingtextsfromdynamicimages,thearticleemphaticallyintroducesthetechnologyofextractingtextsfromstillimages.

KeyWords:MATLABimageprocessingwordextractionwordrecognition

一.引言

随着计算机科学的飞速发展,以图像为主的多媒体信息迅速成为重要的信息传递媒介,在图像中,文字信息(如新闻标题等字幕)包含了丰富的高层语义信息,提取出这些文字,对于图像高层语义的理解、索引和检索非常有帮助。图像文字提取又分为动态图像文字提取和静态图像文字提取两种,其中,静态图像文字提取是动态图像文字提取的基础,其应用范围更为广泛,对它的研究具有基础性,

所以本文主要讨论静态图像的文字提取技

术。静态图像中的文字可分成两大类:一种

是图像中场景本身包含的文字,称为场景

文字;另一种是图像后期制作中加入的文

字,称为人工文字,如右图所示。场景文字

由于其出现的位置、小、颜色和形态的随机

性,一般难于检测和提取;而人工文字则字

体较规范、大小有一定的限度且易辨认,颜

色为单色,相对与前者更易被检测和提取,

又因其对图像内容起到说明总结的作用,故适合用来做图像的索引和检索关键字。对图像中场景文字的研究难度大,目前这方面的研究成果与文献也不是很丰富,本文主要讨论图像中人工文字提取技术。

二.静态图像中文字的特点

静态图像中文字(本文特指人工文字,下同)具有以下主要特征:

(1)文字位于前端,且不会被遮挡;

(2)文字一般是单色的;

(3)文字大小在一幅图片中固定,并且宽度和高度大体相同,从满足人眼视觉感受的角度来说,图像中文字的尺寸既不会过大也不会过小;

(4)文字的分布比较集中;

(5)文字的排列一般为水平方向或垂直方向;

(6)多行文字之间,以及单行内各个字之间存在不同于文字区域的空隙。在静态图片文字的检测与提取过程中,一般情况下都是依据上述特征进行处理的。

三.文字提取、识别的一般流程

≥<=threshithreshii2,12,03静态图像文字提取一般分为以下步骤:文字区域检测与定位、文字分割与文字提取、文字后处理。其流程如图1所示。

(图1)

四.文字提取、识别的详细步骤

1.在Matlab中调用i1=imread('字符.jpg'),可得到原始图像,如图2所示:

(图2)

2.调用i2=rgb2gray(i1),则得到了灰度图像,如图3所示:

(图3)

调用a=size(i1);b=size(i2);可得到:a=3,b=2即三维图像变成了二维灰度图像

3.调用i3=(i2>=thresh);其中thresh为门限,在

[0,255]之间这里,i2_max=double(max(max(i2)));%获取亮度最大值

THE END
1.图片识别车型鉴定想要了解如何凭借一张图片来确定汽车的型号吗?随着道路上各式各样的汽车日益增多,我们时常会对某款车的型号产生好奇。在购车时,我们也会慎重地选择自己心仪的车型。当遇到心仪的车型时,我们可以迅速用手机拍摄下来,接着利用特定的方法来识别它。下面,就为大家介绍一种通过图片来识别车型的方法。 https://www.yoojia.com/article/8643951837056921507.html
2.不用再地去记忆车型了,这3个App,一键拍图上传即可识别迅捷文字识别是一款OCR拍照识别文字软件,支持拍图识字、表格识别、手写识别等功能,能高精准度识别图片中的文字,同样它也可以精准识别图片中汽车的型号。 操作方法: 首先我们打开迅捷文字识别APP,点击主页下方的【发现】,找到迅捷文字识别的更多功能。 点击【一键识别】,往下滑动找到【车辆识别】-【识别车型】,除此之外https://www.dongchedi.com/ugc/article/7236313752013521420
3.创造性问题解决与精明决策方法《创造性问题解决与精明决策方法》正是传授这样一种思维模式。 现场图片 课程内容 创造性问题解决与精明决策方法课程大纲: 前言 学员受益:经理人在执行中不断面临风险和挑战,如何提前识别问题、如何分析问题,如何在问题发生后迅速有效解决。 Kick-off录像 学员与讲师在课程中的定位? 课程的主体内容介绍及重点 如何学http://www.hztbc.com/lesson/info_1834.html
4.吴恩达机器学习课程笔记(持续更新)吴恩达机器学习笔记重新复习补充:h(x(i))是预测值,y(i)是实际值,两者取差。公式中的这个平方,似乎是最小二乘法和最佳平方/函数逼近,涉及到数值分析这一块知识,前置知识太多没去细理解,先按方差这么去理解。至于前面的1 2 m \frac{1}{2m}2m1?中的2是为了后续求偏导更好计算。 https://blog.csdn.net/m0_51487301/article/details/123136528
5.智东西周报:中国类脑芯片登上Nature封面最新AI提前2天预测急性肾7、商汤联合港中文推面部图片处理新方法 7月31日消息,来自商汤科技,香港中文大学以及香港大学的研究团队提出了一种称为MaskGAN的新型框架,可实现多样化和交互式的面部操作。其主要观点是语义掩模作为灵活的面部操作的适当中间表示,使其具有保真度。MaskGAN 有两个主要组成部分:(1)密集映射网络,(2)编辑行为模拟训练。具https://zhidx.com/p/157282.html
6.超详细的编码实战,让你的springboot应用识别图片中的行人汽车让SpringBoot应用识别图片中的物体,其关键在如何使用已经训练好的神经网络模型,好在OpenCV集成的DNN模块可以加载和使用YOLO4模型,我们只要找到使用OpenCV的办法即可 我这里的方法是使用JavaCV库,因为JavaCV本身封装了OpenCV,最终可以使用YOLO4模型进行推理,依赖情况如下图所示: https://cloud.tencent.com/developer/article/1912828
7.在线图片识别翻译用什么好?这三种方法值得一试当需要把图片资料上的文字进行翻译时,你会选择怎么做?是手动翻译还是借助工具进行识别翻译。很显然,前一种方法不仅效率不高还非常容易出错,而后一种方法则会更加高效,准确率也能有保障。那么在线图片识别翻译用什么好?这里介绍两种图片文字翻译的方法,一用就会。https://tech.china.com/article/20220908/092022_1139609.html
8.怎样查询自己的医保钱每个月是否打到卡里面了假如一张图片里有两个二维码。很简单,操作同样是长按图片,不同的是,你要长按住 想识别的二维码区域,系统扫码后的结果就是你想要的二维码。 5.【微信启动美颜相机】 长按相册启动美颜相机,其实在微信里,隐藏着一个不为人知的美颜相机。 启动方法:随便找个人聊天进入聊天窗口,点击输入框右边的“+”,长按“相册”https://www.meipian.cn/3etmayr1
9.深度学习在物联网大数据和流分析中的应用–广州天源信息科技尽管深度学习模型在许多应用中显示出令人印象深刻的结果,它仍然有局限性。研究发现,深度网络会将无法识别的图片分类到熟悉的种类中。并且深度神经网络的回归能力有待增强。 未来研究方向 1)IoT移动数据: IoT数据的一大部分来自移动设备。研究利用移动大数据与深度学习方法相结合的有效方式,可以为IoT提供更好的服务,特别http://www.tianyuaninfo.com/?page_id=1381
10.一种拍摄可见光和热成像重叠图的方法及系统与流程34.与现有技术相比,本发明具有的有益效果为:本发明结合图像识别技术和热成像温度识别技术。通过拍摄可见光和热成像重叠图的方法得到识别物体对应的温度,扩大了智能识别范围。具体的,通过首先调整镜头硬件位置,使两种图像进行重合后,进行拍摄,再经过对热成像进行裁剪和填充,获得重叠图,对重叠图进行图像的处理,这样的过程https://www.xjishu.com/zhuanli/62/202210087340.html