应用丰富的“卷积神经网络”技术,怎样实现了图像识别?

“图像识别”是一个非常有趣,但十分富有挑战性的研究领域。本文将使用卷积神经网络来介绍“图像识别”的概念、应用和技术方法。

从“机器视觉”的角度来说,“图像识别”就是软件识别图像中出现的人物、地理位置、物体、动作和文字的能力。计算机可以使用“机器视觉技术”,并结合人工智能软件和一个摄像头,完成图像识别。

对人类大脑和其他动物大脑来说,识别物体是非常简单的;但是对于计算机,这样的识别却是相当困难的。当人类看到一棵树、一辆车,或者是一个朋友,能立刻说出看到的是什么,根本不需要有意识地研究和思考。

然而对于一台计算机来说,识别一个物体(可能是一个时钟、一张椅子、一个人或者是一只动物)是一个非常困难的问题,而且寻找这个问题的解决办法具有相当高的风险。

图片:CS231.github

图像识别有着非常广泛的应用,其中的“个人照片管理”是最常见,同时也是最受欢迎的应用。面对成千上万张繁杂的照片,几乎每个人都想根据照片主题把它们一一分类,整理成有序的照片集。

现在,那些用于照片管理的应用程序正在使用“图像识别”技术。除了为用户提供照片的存储空间,这些应用程序还希望通过“图像自动管理”,进一步为人们提供更好的照片搜索功能。应用程序中的图像识别编程接口能够根据不同的识别模式将图像进行分类,并且将它们按照主题一一分组。

图像识别的其他应用还包括——照片和视频网站、互动营销、创意活动、社交网络上的面部及图像识别,以及庞大数据集下的网络图像分类等。

图像识别并不是一件容易的事,实现它的一种好办法是将元数据应用于非结构化的数据。雇佣人类专家来手动地标记音乐曲库和视频库看似是一项十分艰巨的任务,但是一项更不可能完成的任务是——教会一个无人驾驶汽车的导航系统区分道路上的行人和其他车辆,或者让导航系统对出现在社交媒体上的成千上万的视频和照片进行过滤、分类和标记。

解决这一问题的方法之一是利用神经网络。理论上,我们可以利用卷积神经网络来分析图像;但实际上从计算的角度来看,这样做的成本非常高。举例来说,即使是一个处理一张很小的图像(假设是30*30像素)的卷积神经网络,仍需要五十万的参数和900个输入。一个功能相对较强大的机器还能够处理这样的图像,但是一旦图像变得更大了(比如处理一个500*500像素的图像),那么相应地,参数和输入的数量也会增加到非常高的水平,同一机器就不一定能完成。

将神经网络应用于图像识别出现的另一个问题是:过度拟合。简单来说,当一个模型将自己调整到与训练数据非常相近时,就会出现“过度拟合”。“过度拟合”会造成更多的参数,进一步增加计算成本,而且模型在新数据上的训练会导致总体性能的损失。

卷积神经网络架构模型(图片:Parse)

对于神经网络结构,一个相对简单的改变就能够让更大的图像更易于管理。其结果就是我们所说的“卷积神经网络”(CNNs或ConvNets)。

神经网络的普适性是其优势之一,但是这个优势在处理图像时却变成了一种负担。这个卷积神经网络有意识地做了一个权衡:如果一个神经网络是专门用于图像处理的,那么为了达到更加可行的解决方案,就必须牺牲其部分普遍适用的特性。

卷积神经网络通过删除这些不必要的连接来解决这个问题。从技术层面来看,卷积神经网络通过邻近程度对连接进行筛选和过滤,进而让图像处理在计算上更加可行。

在一个给定的层中,卷积神经网络并不是简单地将所有输入与所有神经元相连,而是有意识地限制这些连接,这样,任意一个神经元都只会接收来自该层的一小部分输入。也就是说,网络的每个神经元都只负责处理图像的某一部分。(这与我们大脑皮层神经元的运行方式高度相似——大脑的每个神经元只会对你视觉感受的一小部分作出反应。)

图片:deeplearning4j

从左到右观察上图,你会发现:

输入的图像将会经过特征扫描处理,图中浅色的矩形就是进行特征扫描的滤波器。“激活映射”是一层一层相互叠加的,一个“激活映射”对应一个滤波器。较大的矩形将会在下一批被进行“下采样”。“激活映射”通过下采样,被不断地压缩。将滤波器在“激活映射”堆叠的层上传递,会产生一组新的“激活映射”,这些新的“激活映射”将首先被下采样。第二次下采样会压缩新的“激活映射”。

一个全连接的层指定了每个节点的输出为一个标签。

一个卷积神经网络如何通过邻近程度来过滤连接呢?其中的秘密就在于两个新的层:池化层和卷积层。接下来,我们将利用一个网络的例子,分解其过滤的流程。

第一步是卷积层,而卷积层本身也包含了几个步骤。

首先,我们把一张照片分解成一系列重叠着的3*3像素块。之后,我们在保持权重不变的情况下,将各个像素块运行于一个简单的单层神经网络。这么做将会使这一系列像素块变成一个数组。因为我们已经把图片分解成很小的像素块了(在本案例中是3*3的像素块),所以其神经网络的操作就变得简单多了。

接着,输出值将会被排列在一个数组中,其中的数字分别代表照片各个区域的内容,坐标轴分别代表颜色、宽度和高度。因此,在这个案例中会有一个3*3*3的数字表示。(如果是视频,那么数字表示就将变成四维的。)

下一步是池化层。它会池化这些三维或四维的数组,并且把下采样函数与空间维度结合应用。通过这样的操作,我们会得到一个仅包含重要的图像部分的池化数组,因为这个数组删减了不必要的图像部分,只保留了比较重要的部分,所以网络的计算负担被降到了最低,同时避免了过度拟合的问题。

这个经过了下采样处理的数组将会成为一个常规的全连接神经网络的输入。因为我们已经用池化和卷积大大地缩减了输入尺寸,所以我们现在需要一些普通网络能够处理的、可以保留最重要的数据的东西。而最后一步的输出将会用于系统对其图像判断有多少把握。

在现实生活中,CNN的流程纷繁复杂,涉及到许多隐藏层、池化层和卷积层。除此之外,真正的CNN通常包含了成千上万的标签。

建立一个CNN是非常昂贵且耗时的。科技公司开发的API,目的是让组织在不需要内部机器学习专家或计算机视觉专家的情况下,也能达到目的。

GoogleCloudVision

“GoogleCloudVision”是谷歌的视觉识别API。它的建立以开源TensorFlow框架为基础,使用的是一个RESTAPI。它包含了全面的标签数据集,能检测出人脸和物体。

IBMWatson视觉识别

“IBMWatson视觉识别”是“Watson开发云”的一部分,它有着一个庞大的内置类别集,能够根据你提供的图像对自定义的类进行训练。它还支持许多比较高端的功能,比如NSFW检测,OCR检测。

Clarif.ai

Clarif.ai是一个新兴的图像识别服务器,它使用的也是RESTAPI。它带有能够调整算法的模块,这些模块能够将其算法调整至一个特定的主题,比如美食、旅行或婚礼主题。

虽然上面的API适用于一般的情况,但是最好针对单个任务定制一个专门的解决方案。幸运的是,现在的许多数据集可以让开发人员和数据科学家们专注于训练模型,处理好网络优化和计算方面的问题,他们的工作也将会变得相对轻松一些。

给无声电影自动配音

为了匹配一个无声视频,系统必须在视频中合成声音。这个系统利用上千个视频进行训练,这些视频中包含了鼓棒敲击不同表面发出的不同声音。一个深度学习模型将视频的各个帧与预先记录的声音库联系起来,选出一个与视频场景最匹配的声音。

然后,这个系统将会由一个测试装置进行评估,这个测试装置与人类用来判断真声或假声(合成声音)的装置非常类似。不得不说,这是一个非常特别、有趣的卷积神经网络和LSTM递归神经网络应用。请看下面的视频:

快报

2024-12-0822:42

通用汽车宣布将关闭与上汽集团的合资工厂和产品线

2024-12-0822:33

特朗普:无法保证关税不会伤害美国家庭

2024-12-0822:30

余额宝收益率跌破历史新低,货基市场遭受同业存款新规冲击

2024-12-0822:29

特朗普:没有计划更换美联储主席鲍威尔

2024-12-0822:24

下周(12月9日-15日)市场大事预告

2024-12-0821:55

10年期国债收益率跌破2%关口,私募预计广谱利率下行将持续

2024-12-0821:35

马云现身杭州祝福蚂蚁20岁生日:希望蚂蚁用科技为生活带去进步和改变

2024-12-0820:54

银河磁体:银河集团计划减持公司股份320万股

本川智能:董事兼总经理江培来拟减持不超过3%公司股份

2024-12-0820:53

西域旅游:昆仑投资计划减持公司股份不超过3%

2024-12-0820:51

砂糖橘今年涨价近三成

2024-12-0820:25

湘财股份:未认定湘财证券及其工作人员参与罗静等人的合同诈骗

2024-12-0820:22

网传今年车检“史上最严”?OBD检测不容易过?均为谣言

2024-12-0820:08

本周新增布鲁可、汇舸环保两家境外上市备案企业

12月8日新闻联播速览21条

2024-12-0819:56

新华述评:从房地产市场的中长期趋势来看,满足刚性和改善性住房需求仍有发展空间

2024-12-0819:40

本周新增无锡华光汽车部件、河北港口集团等10家上市辅导备案企业

THE END
1.模板匹配——图像识别概述文章浏览阅读129次,点赞9次,收藏2次。图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。文字识别的研究是从1950年开始的,一般是识别字母、数字和符https://blog.csdn.net/weixin_42291376/article/details/143456894
2.机器视觉系统高效的图像识别与处理技术机器视觉系统作为一种高效的图像识别与处理技术,在现代计算机视觉领域占据了重要地位。它通过模仿人类的视觉功能,能够分析和理解图像中的信息,为工业自动化、医疗诊断、交通监控等多个领域提供强大的支持。那么,我们如何才能提高这套复杂系统的性能呢? 如何有效学习图像特征? https://www.bcioqpgw.cn/cai-dian/349872.html
3.机器视觉技术人工智能在图像识别和分析中的作用人工智能的范围无处不在,它正在改变我们生活的方方面面,尤其是在图像识别和分析领域。机器视觉技术是人工智能的一个重要分支,它使得计算机能够通过摄像头或其他传感器捕捉到世界,并理解其中所包含的信息。 1. 什么是机器视觉? 机器视觉是一门科学与工程,旨在为计算机系统提供“看到”能力,使它们能够处理、解释并从图像https://www.iktpfbwjvk.cn/zhi-neng/552291.html
4.java版图像识别mob64ca12d94299的技术博客java版图像识别,#Java版图像识别的科普图像识别技术是计算机视觉领域中的一项重要任务,它使得计算机能够“看懂”图像并从中提取出有用的信息。在Java中,我们可以利用一些常用的库来实现图像识别功能。本文将介绍一种简单的图像识别实现方法,并通过代码示例阐明其核心概https://blog.51cto.com/u_16213336/12722140
5.什么是图像识别与理解?图像识别与理解是指通过对图像中各种不同的物体特征进行定量化描述后,将其所期望获得的目标物进行提取,并且对所提取的目标物进行一定的定量分析。比如要从一幅照片上确定是否包含某个犯罪分子的人脸信息,就需要先将照片上的人脸检测出来,进而将检测出来的人脸区域进行分析,确定其是否是该犯罪分子。https://www.shuashuati.com/ti/76cb0bcf35ab43f68bd363ad77bd7b67.html
6.什么是图像识别,图像识别的知识介绍图像识别是指利用计算机视觉技术对图像进行分析、识别和理解的过程。这种技术可以帮助计算机“看懂”图像,从而实现自动化处理、智能化判断等功能。随着深度学习等技术的不断发展,图像识别已经逐渐成为人工智能领域中的一个重要研究方向。 1.图像识别是什么 图像识别是一种利用计算机软件对数字图像进行分析、识别和理解的https://www.eefocus.com/baike/1545801.html
7.机器学习零基础?手把手教你用TensorFlow搭建图像识别系统(一)导语:这是Wolfgang Beyer的一篇博文,详细介绍了如何使用TensorFlow搭建一个简单的图像识别系统。本篇主要介绍图像识别和本试验中会遇到的一些概念。 如果你觉得这是一篇简单介绍人工智能、机器学习和深度学习的文章,那就错啦。你可以在网上搜罗到一大堆相关话题的文章,而这篇文章也并不是讨论人工智能是否会奴役人类或抢走https://www.leiphone.com/category/ai/Y4uyEktkkwb5YhJM.html
8.科学网—如何用Python和深度神经网络识别图像?你早已听说过自动驾驶汽车的神奇吧?没有机器对图像的辨识,能做到吗? 你的好友可能(不止一次)给你演示如何用新买的iPhone X做面部识别解锁了吧?没有机器对图像的辨识,能做到吗? 医学领域里,计算机对于科学影像(如X光片)的分析能力,已经超过有多年从业经验的医生了。没有机器对图像的辨识,能做到吗? https://wap.sciencenet.cn/blog-377709-1091943.html
9.ni图像识别linuxninilinux腾讯云开发者社区图像识别之augmix augmix: https://github.com/google-research/augmix 5.3K10 图像识别——突破与应用 最近,图像识别领域发布了白皮书,简单翻译一下做个总结。--- [2]图像识别图像识别的目标是识别图像中的对象和人,并理解上下文。图像识别属于机器知觉,机器知觉是机器学习(ML)和人工智能(AI)的一部分。https://cloud.tencent.cn/developer/information/ni%E5%9B%BE%E5%83%8F%E8%AF%86%E5%88%AB
10.ocr图片识别技术是什么?OCR的作用有哪些?可以放进口袋的扫描大师 ocr图片识别技术是什么?OCR的作用有哪些? ocr图片识别技术存在于很多地方,例如的银行的人脸识别系统,二维码识别系统。福昕全能王也运用了ocr图片识别技术进行工作,大家可以使用福昕全能王进行身份证的识别。 ocr图片识别技术是什么? ocr图像识别,是指利用计算机对图像进行处理、分析和理解,以识别https://www.foxitsoftware.cn/scanner/jiaocheng/691.html
11.图像识别模型袋鼠社区图像识别模型 - 图像识别模型是专门设计用于处理图像数据的机器学习模型,其目的是从给定的图像中提取特征、识别特定对象、场景、行为、属性或进行更复杂的视觉理解任务。这类模型广泛应用于诸多领域,如安防、自动驾驶、医疗诊断、零售分析、社交媒体、遥感、艺术与文化遗https://www.dtstack.com/bbs/article/16443
12.图像识别和chatgpt图像识别和ChatGPT:当AI遇上AI 当图像识别技术和机器学习交织在一起,我们迎来了一个新的智能时代。图像识别算法的发展和应用为我们提供了更多的机会,使我们能够以前所未有的方式与计算机进行交互https://tool.a5.cn/article/show/25254.html
13.图像识别图像识别,什么是图像识别,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用,应用场景,包括电子商务,游戏,汽车,制造业和教育。现阶段图像识别技术一般分为人脸识别与商品识别,人脸识别主要https://baike.c114.com.cn/view.php?id=28373-30A559E6
14.计算机视觉与图像识别考试.pdfD.实现图像超分辨率的技术通常不直接依赖于这些方法 9.计算机视觉中的场景理解技术中,哪种技术可以用于分析和理解图像中的内容及其上下 文关系? A.语义分割 B.实例分割 C.人脸识别 D.目标检测和识别 10.在计算机视觉中,哪种技术可以用于将二维图像转换为三维立体信息? https://m.book118.com/html/2024/1002/8074076035006132.shtm