一文弄懂CNN及图像识别(Python)腾讯云开发者社区

对于高维图像数据,卷积神经网络利用了卷积和池化层,能够高效提取图像的重要“特征”,再通过后面的全连接层处理“压缩的图像信息”及输出结果。对比标准的全连接网络,卷积神经网络的模型参数大大减少了。

其定义是两个函数中一个函数(g)经过反转和位移后再相乘得到的积的积分。如下图,函数g是过滤器。它被反转后再沿水平轴滑动。在每一个位置,我们都计算f和反转后的g之间相交区域的面积。这个相交区域的面积就是特定位置出的卷积值。

CNN通过设计的卷积核(convolutionfilter,也称为kernel)与图片做卷积运算(平移卷积核去逐步做乘积并求和)。

如下示例设计一个(特定参数)的3×3的卷积核:

让它去跟图片做卷积,卷积的具体过程是:

可以发现,通过特定的filter,让它去跟图片做卷积,就可以提取出图片中的某些特征,比如边界特征。

进一步的,我们可以借助庞大的数据,足够深的神经网络,使用反向传播算法让机器去自动学习这些卷积核参数,不同参数卷积核提取特征也是不一样的,就能够提取出局部的、更深层次和更全局的特征以应用于决策。

卷积神经网络通常由3个部分构成:卷积层,池化层,全连接层。简单来说,卷积层负责提取图像中的局部及全局特征;池化层用来大幅降低参数量级(降维);全连接层用于处理“压缩的图像信息”并输出结果。

卷积层主要功能是动态地提取图像特征,由滤波器filters和激活函数构成。一般要设置的超参数包括filters的数量、大小、步长,激活函数类型,以及padding是“valid”还是“same”。

另外的,卷积的类型除了标准卷积,还演变出了反卷积、可分离卷积、分组卷积等各种类型,可以自行验证。

通过卷积运算的介绍,可以发现卷积层有两个主要特点:局部连接(稀疏连接)和权值共享。

由于局部连接(稀疏连接)和权值共享的特点,使得CNN具有仿射的不变性(平移、缩放等线性变换)

池化层可对提取到的特征信息进行降维,一方面使特征图变小,简化网络计算复杂度;另一方面进行特征压缩,提取主要特征,增加平移不变性,减少过拟合风险。但其实池化更多程度上是一种计算性能的一个妥协,强硬地压缩特征的同时也损失了一部分信息,所以现在的网络比较少用池化层或者使用优化后的如SoftPool。

池化层设定的超参数,包括池化层的类型是Max还是Average(Average对背景保留更好,Max对纹理提取更好),窗口大小以及步长等。如下的MaxPooling,采用了一个2×2的窗口,并取步长stride=2,提取出各个窗口的max值特征(AveragePooling就是平均值):

在经过数次卷积和池化之后,我们最后会先将多维的图像数据进行压缩“扁平化”,也就是把(height,width,channel)的数据压缩成长度为height×width×channel的一维数组,然后再与全连接层连接(这也就是传统全连接网络层,每一个单元都和前一层的每一个单元相连接,需要设定的超参数主要是神经元的数量,以及激活函数类型),通过全连接层处理“压缩的图像信息”并输出结果。

LeNet-5由YannLeCun设计于1998年,是最早的卷积神经网络之一。它是针对灰度图进行训练的,输入图像大小为32321,不包含输入层的情况下共有7层。下面逐层介绍LeNet-5的结构:

第一层是卷积层,用于过滤噪音,提取关键特征。使用5*5大小的过滤器6个,步长s=1,padding=0。

第三层使用5*5大小的过滤器16个,步长s=1,padding=0。

第四层使用2*2大小的过滤器,步长s=2,padding=0。没有需要学习的参数。

第五层是卷积层,有120个5*5的单元,步长s=1,padding=0。

有84个单元。每个单元与F5层的全部120个单元之间进行全连接。

Output层也是全连接层,采用RBF网络的连接方式(现在主要由Softmax取代,如下示例代码),共有10个节点,分别代表数字0到9(因为Lenet用于输出识别数字的),如果节点i的输出值为0,则网络识别的结果是数字i。

THE END
1.模板匹配——图像识别概述文章浏览阅读129次,点赞9次,收藏2次。图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。文字识别的研究是从1950年开始的,一般是识别字母、数字和符https://blog.csdn.net/weixin_42291376/article/details/143456894
2.机器视觉系统高效的图像识别与处理技术机器视觉系统作为一种高效的图像识别与处理技术,在现代计算机视觉领域占据了重要地位。它通过模仿人类的视觉功能,能够分析和理解图像中的信息,为工业自动化、医疗诊断、交通监控等多个领域提供强大的支持。那么,我们如何才能提高这套复杂系统的性能呢? 如何有效学习图像特征? https://www.bcioqpgw.cn/cai-dian/349872.html
3.机器视觉技术人工智能在图像识别和分析中的作用人工智能的范围无处不在,它正在改变我们生活的方方面面,尤其是在图像识别和分析领域。机器视觉技术是人工智能的一个重要分支,它使得计算机能够通过摄像头或其他传感器捕捉到世界,并理解其中所包含的信息。 1. 什么是机器视觉? 机器视觉是一门科学与工程,旨在为计算机系统提供“看到”能力,使它们能够处理、解释并从图像https://www.iktpfbwjvk.cn/zhi-neng/552291.html
4.java版图像识别mob64ca12d94299的技术博客java版图像识别,#Java版图像识别的科普图像识别技术是计算机视觉领域中的一项重要任务,它使得计算机能够“看懂”图像并从中提取出有用的信息。在Java中,我们可以利用一些常用的库来实现图像识别功能。本文将介绍一种简单的图像识别实现方法,并通过代码示例阐明其核心概https://blog.51cto.com/u_16213336/12722140
5.什么是图像识别与理解?图像识别与理解是指通过对图像中各种不同的物体特征进行定量化描述后,将其所期望获得的目标物进行提取,并且对所提取的目标物进行一定的定量分析。比如要从一幅照片上确定是否包含某个犯罪分子的人脸信息,就需要先将照片上的人脸检测出来,进而将检测出来的人脸区域进行分析,确定其是否是该犯罪分子。https://www.shuashuati.com/ti/76cb0bcf35ab43f68bd363ad77bd7b67.html
6.什么是图像识别,图像识别的知识介绍图像识别是指利用计算机视觉技术对图像进行分析、识别和理解的过程。这种技术可以帮助计算机“看懂”图像,从而实现自动化处理、智能化判断等功能。随着深度学习等技术的不断发展,图像识别已经逐渐成为人工智能领域中的一个重要研究方向。 1.图像识别是什么 图像识别是一种利用计算机软件对数字图像进行分析、识别和理解的https://www.eefocus.com/baike/1545801.html
7.机器学习零基础?手把手教你用TensorFlow搭建图像识别系统(一)导语:这是Wolfgang Beyer的一篇博文,详细介绍了如何使用TensorFlow搭建一个简单的图像识别系统。本篇主要介绍图像识别和本试验中会遇到的一些概念。 如果你觉得这是一篇简单介绍人工智能、机器学习和深度学习的文章,那就错啦。你可以在网上搜罗到一大堆相关话题的文章,而这篇文章也并不是讨论人工智能是否会奴役人类或抢走https://www.leiphone.com/category/ai/Y4uyEktkkwb5YhJM.html
8.科学网—如何用Python和深度神经网络识别图像?你早已听说过自动驾驶汽车的神奇吧?没有机器对图像的辨识,能做到吗? 你的好友可能(不止一次)给你演示如何用新买的iPhone X做面部识别解锁了吧?没有机器对图像的辨识,能做到吗? 医学领域里,计算机对于科学影像(如X光片)的分析能力,已经超过有多年从业经验的医生了。没有机器对图像的辨识,能做到吗? https://wap.sciencenet.cn/blog-377709-1091943.html
9.ni图像识别linuxninilinux腾讯云开发者社区图像识别之augmix augmix: https://github.com/google-research/augmix 5.3K10 图像识别——突破与应用 最近,图像识别领域发布了白皮书,简单翻译一下做个总结。--- [2]图像识别图像识别的目标是识别图像中的对象和人,并理解上下文。图像识别属于机器知觉,机器知觉是机器学习(ML)和人工智能(AI)的一部分。https://cloud.tencent.cn/developer/information/ni%E5%9B%BE%E5%83%8F%E8%AF%86%E5%88%AB
10.ocr图片识别技术是什么?OCR的作用有哪些?可以放进口袋的扫描大师 ocr图片识别技术是什么?OCR的作用有哪些? ocr图片识别技术存在于很多地方,例如的银行的人脸识别系统,二维码识别系统。福昕全能王也运用了ocr图片识别技术进行工作,大家可以使用福昕全能王进行身份证的识别。 ocr图片识别技术是什么? ocr图像识别,是指利用计算机对图像进行处理、分析和理解,以识别https://www.foxitsoftware.cn/scanner/jiaocheng/691.html
11.图像识别模型袋鼠社区图像识别模型 - 图像识别模型是专门设计用于处理图像数据的机器学习模型,其目的是从给定的图像中提取特征、识别特定对象、场景、行为、属性或进行更复杂的视觉理解任务。这类模型广泛应用于诸多领域,如安防、自动驾驶、医疗诊断、零售分析、社交媒体、遥感、艺术与文化遗https://www.dtstack.com/bbs/article/16443
12.图像识别和chatgpt图像识别和ChatGPT:当AI遇上AI 当图像识别技术和机器学习交织在一起,我们迎来了一个新的智能时代。图像识别算法的发展和应用为我们提供了更多的机会,使我们能够以前所未有的方式与计算机进行交互https://tool.a5.cn/article/show/25254.html
13.图像识别图像识别,什么是图像识别,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用,应用场景,包括电子商务,游戏,汽车,制造业和教育。现阶段图像识别技术一般分为人脸识别与商品识别,人脸识别主要https://baike.c114.com.cn/view.php?id=28373-30A559E6
14.计算机视觉与图像识别考试.pdfD.实现图像超分辨率的技术通常不直接依赖于这些方法 9.计算机视觉中的场景理解技术中,哪种技术可以用于分析和理解图像中的内容及其上下 文关系? A.语义分割 B.实例分割 C.人脸识别 D.目标检测和识别 10.在计算机视觉中,哪种技术可以用于将二维图像转换为三维立体信息? https://m.book118.com/html/2024/1002/8074076035006132.shtm