丰富的线上&线下活动,深入探索云世界
做任务,得社区积分和周边
最真实的开发者用云体验
让每位学生受益于普惠算力
让创作激发创新
资深技术专家手把手带教
遇见技术追梦人
技术交流,直击现场
海量开发者使用工具、手册,免费下载
极速、全面、稳定、安全的开源镜像
开发手册、白皮书、案例集等实战精华
为开发者定制的Chrome浏览器插件
1.数据分析与挖掘数据挖掘是“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的过程”
数据分析则通常被定义为“指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用,是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程”。2.模式识别模式识别研究主要集中在两个方面:一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴;二是在给定的任务下,如何用计算机实现模式识别的理论和方法,这些是机器学习的长项。模式识别的应用领域广泛,包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等,而这些领域也正是机器学习大展身手的舞台,因此模式识别与机器学习的关系越来越密切。3.更广阔的领域研究和应用机器学习的最终目标是全面模仿人类大脑,创造出拥有人类智慧的机器大脑。
监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。1.监督学习概述监督学习表示机器学习的数据是带标记的,这些标记可以包括数据类别、数据属性及特征点位置等。
具体实现过程是通过大量带有标记的数据来训练机器,机器将预测结果与期望结果进行比对;之后根据比对结果来修改模型中的参数,再一次输出预测结果;再将预测结果与期望结果进行比对,重复多次直至收敛,最终生成具有一定鲁棒性的模型来达到智能决策的能力。
常见的监督学习有分类(Classification)和回归(Regression),分类是将一些实例数据分到合适的类别中,其预测结果是离散的;回归是将数据归到一条“线”上,即为离散数据生产拟合曲线,因此其预测结果是连续的。2.监督学习的应用判断邮件是否为垃圾邮件
根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称为无监督学习。1.无监督学习概述无监督学习的训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。无监督学习表示机器从无标记的数据中探索并推断出潜在的联系。
常见的无监督学习有聚类(Clustering)和降维(DimensionalityReduction)两种。在聚类工作中,由于事先不知道数据类别,因此只能通过分析数据样本在特征空间中的分布,如基于密度或基于统计学概率模型,从而将不同数据分开,把相似数据聚为一类。降维是将数据的维度降低,由于数据本身具有庞大的数量和各种属性特征,若对全部数据信息进行分析,则会增加数据训练的负担和存储空间。因此可以通过主成分分析等其他方法,考虑主要因素,舍弃次要因素,从而平衡数据分析的准确度与数据分析的效率。在实际应用中,可以通过一系列的转换将数据的维度降低。2.无监督学习的应用数据挖掘,用于在大量无标签数据中寻找信息。
3.监督学习与无监督学习的区别(1)监督学习是一种目的明确的训练方式;而无监督学习是没有明确目的的训练方式。(2)监督学习需要给数据打标签;而无监督学习不需要给数据打标签。(3)监督学习由于目的明确,因此可以衡量效果;而无监督学习几乎无法衡量效果如何。
机器学习的核心是从数据中学习,从数据出发得到未知规律,利用规律对未来样本进行预测和分析。
监督学习需要大量已标记类别的训练样本来保证其良好的性能;无监督学习不使用先验信息,利用无标签样本的特征分布规律,使得相似样本聚到一起,但模型准确性难以保证。获取大量无标记样本相当容易,而获取大量有标记样本则困难得多,且人工标注需要耗费大量的人力和物力。如果只使用少量的有标记样本进行训练,往往导致学习的泛化性能低下,且浪费大量的无标记样本数据资源。
因此,使用少量标记样本作为指导,利用大量无标记样本改善学习性能的半监督学习成为研究的热点。半监督学习包括半监督聚类、半监督分类、半监督降维和半监督回归4种学习场景。常见的半监督分类代表算法包括生成式方法、半监督支持向量机(Semi-supervisedSupportVectorMachines,S3VMs)、基于图的半监督图方法和基于分歧的半监督方法共4种算法。常见的假设模型有混合高斯模型、混合专家模型、朴素贝叶斯模型,采用极大似然方法作为参数估计的优化目标,选择最大期望(Expectation-Maximization,EM)算法进行参数的优化求解。
常见的S3VMs方法有直推式支持向量机(TransductiveSupportVectorMachine,TSVM)、拉普拉斯支持向量机(LaplacianSupportVectorMachine,LaplacianSVM)、均值标签半监督支持向量机(MeanSemi-supervisedSupportVectorMachine,MeanS3VM)、安全半监督支持向量机(SafeSemi-supervisedSVM,S4VM)、基于代价敏感的半监督支持向量机(Cost-sensitiveSemi-supervisedSVM,CS4VM)。基于图的半监督方法是利用有标签和无标签样本之间的联系得到图结构,利用图结构进行标签传播。典型的基于图的半监督方法有标签传播算法、最小割算法以及流形正则化算法。根据源领域中是否有标签样本,把归纳迁移学习方法分为2类:多任务迁移学习和自学习
强化学习(ReinforcementLearning,RL)又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习主要包括智能体、环境状态、奖励和动作4个元素以及一个状态。强化学习是带有激励机制的,即如果机器行动正确,则施予一定的“正激励”;如果机器行动错误,则会给出一定的惩罚,也可称为“负激励”。在这种情况下,机器将会考虑在一个环境中如何行动才能达到激励的最大化,具有一定的动态规划思想。
强化学习的应用机械狗AlphaGoZer
逻辑回归(LogisticRegression)多项式回归(PolynomialRegression)逐步回归(Step-wiseRegression)岭回归(RidgeRegression)套索回归(LassoRegression)弹性回归(ElasticNetRegression)
聚类就是将相似的事物聚集在一起,将不相似的事物划分到不同类别的过程,是数据挖掘中一种重要的方法。聚类算法的目标是将数据集合分成若干簇,使得同一簇内的数据点相似度尽可能大,而不同簇间的数据点相似度尽可能小。聚类能在未知模式识别问题中,从一堆没有标签的数据中找到其中的关联关系。1.聚类算法概述聚类技术是一种无监督学习,是研究样本或指标分类问题的一种统计分析方法。聚类与分类的区别是其要划分的类是未知的。常用的聚类分析方法有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法和聚类预报法等。聚类分析注意点
贝叶斯算法是对部分未知的状态进行主观概率估计,并使用贝叶斯公式对发生概率进行修正,最后利用期望值和修正概率做出最优决策。
支持向量机算法是一种支持线性分类和非线性分类的二元分类算法。经过演进,其现在也支持多元分类,被广泛地应用在回归以及分类当中。支持向量机算法在垃圾邮件处理、图像特征提取及分类、空气质量预测等多个领域都有应用,已成为机器学习领域中不可缺少的一部分。
遗传算法是一种启发式的寻优算法,该算法是以进化论为基础发展出来的。它是通过观察和模拟自然生命的迭代进化,建立起一个计算机模型,通过搜索寻优得到最优结果的算法。
神经网络(NeuralNetwork,NN)亦称为人工神经网络(ArtificialNeuralNetwork,ANN),是由大量神经元(Neurons)广泛互连而成的网络,是对人脑的抽象、简化和模拟,应用了一些人脑的基本特性。
神经网络与人脑的相似之处可概括为两方面,一是通过学习过程利用神经网络从外部环境中获取知识,二是内部神经元用来存储获取的知识信息。神经网络的信息处理是由神经元之间的相互作用实现的,知识与信息的存储主要表现为网络元件互相连接的分布式物理联系。人工神经网络具有很强的自学习能力,它可以不依赖于“专家”的头脑,自动从已有的实验数据中总结规律。人工神经网络擅长处理复杂的多维的非线性问题,不仅可以解决定性问题,还可以解决定量问题,同时具有大规模并行处理和分布信息存储能力,具有良好的自适应性、自组织性、容错性和可靠性。
神经网络会将多个单一神经元连接在一起,将一个神经元的输出作为下一个神经元的输入神经网络的结构大致可以分为以下5类(1)前馈式网络:该网络结构是分层排列的,每一层的神经元输出只与下一层的神经元连接。(2)输出反馈的前馈式网络:该网络结构与前馈式网络的不同之处在于,其中存在着一个从输出层到输入层的反馈回路。(3)前馈式内层互连网络:在该网络结构中,同一层的神经元之间相互关联,它们有相互制约的关系。但从层与层之间的关系来看,它仍然是前馈式的网络结构,许多自组织神经网络大多具有这种结构。(4)反馈型全互连网络:在该网络结构中,每个神经元的输出都和其他神经元相连,从而形成了动态的反馈关系,该网络结构具有关于能量函数的自寻优能力。(5)反馈型局部互连网络:在该网络结构中,每个神经元只和其周围若干层的神经元发生互连关系,形成局部反馈,从整体上看是一种网状结构。
神经网络的学习也称为训练,指的是通过神经网络所在环境的刺激作用调整神经网络的自由参数,使神经网络以一种新的方式对外部环境做出反应的一个过程。神经网络最大的特点是能够从环境中学习,以及在学习中提高自身性能。经过反复学习,神经网络对其环境会越来越了解。
激活函数(ActivationFunctions)对于人工神经网络模型以及卷积神经网络模型学习理解非常复杂和非线性的函数来说具有十分重要的作用。
损失函数是模型对数据拟合程度的反映,拟合得越差,损失函数的值就越大。与此同时,当损失函数比较大时,其对应的梯度也会随之增大,这样就可以加快变量的更新速度。
感知机被称为深度学习领域最为基础的模型。虽然感知机是最为基础的模型,但是它在深度学习的领域中有着举足轻重的地位,它是神经网络和支持向量机学习的基础。感知机学习的目标就是求得一个能够将训练数据集中正、负实例完全分开的分类超平面,为了找到分类超平面,即确定感知机模型中的参数w和b,需要定义一个基于误分类的损失函数,并通过将损失函数最小化来求解w和b。
多层感知机(MLP)也叫作前馈神经网络,是深度学习中最基本的网络结构。
1.AlexNet2.VGG3.GoogLeNet4.ResNet
循环神经网络(RecurrentNeuralNetwork,RNN)是深度学习领域中一类特殊的内部存在自连接的神经网络,可以学习复杂的矢量到矢量的映射。循环神经网络是一种以序列(Sequence)数据为输入,在序列的演进方向进行递归(Recursion),且所有节点(循环单元)按链式连接形成闭合回路的递归神经网络(RecursiveNeuralNetwork)。循环神经网络是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上看,循环神经网络会记忆之前的信息,并利用之前的信息影响后面节点的输出。循环神经网络的隐藏层之间的节点是有连接的,隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。对于每一个时刻的输入,循环神经网络会结合当前模型的状态给出一个输出,其可以看作同一神经网络被无限复制的结果。闭合回路连接是循环神经网络的核心部分。循环神经网络对于序列中每个元素都执行相同的任务,输出依赖于之前的计算(即循环神经网络具有记忆功能),记忆可以捕获迄今为止已经计算过的信息。循环神经网络在语音识别、语言建模、自然语言处理(NaturalLanguageProcessing,NLP)等领域有着重要的应用。
1.长短期记忆网络(LongShort-TermMemory,LSTM))2.门控循环单元神经网络(GatedRecurrentUnit,GRU)
1.条件生成对抗网络条件生成对抗网络(ConditionalGAN,CGAN)在原始GAN的基础上增加了约束条件,控制了GAN过于自由的问题,使网络朝着既定的方向生成样本。2.深度卷积生成对抗网络深度卷积生成对抗网络(DeepConvolutionalGAN,DCGAN)的提出对GAN的发展有着极大的推动作用,它将CNN和GAN结合起来,使得生成的图片质量和多样性得到了保证。3.循环一致性生成对抗网络循环一致性生成对抗网络(Cycle-consistentGenerativeAdversarialNetworks,CycleGAN),CycleGAN可以让两个域的图像互相转换且不需要成对的图像作为训练数据
深度学习技术目前在人工智能领域占有绝对的统治地位,因为相比于传统的机器学习算法而言,深度学习在某些领域展现出了最接近人类所期望的智能效果,同时在悄悄地走进人们的生活,如刷脸支付、语音识别、智能翻译、自动驾驶、棋类人机大战等。
(1)神经网络亦称为人工神经网络,是由大量神经元广泛互连而成的网络,是对人脑的抽象、简化和模拟,神经网络应用了一些人脑的基本特性。(2)感知机被认为是具有实用价值的重要分类算法之一。(3)卷积神经网络在神经网络的基础上加入了卷积运算,通过卷积核局部感知图像信息提取其特征,多层卷积之后能够提取出图像的深层抽象特征,凭借这些特征来达到更准确的分类或预测的目标。(4)循环神经网络是一种以序列数据为输入,在序列的演进方向进行递归,且所有节点(循环单元)按链式连接形成闭合回路的递归神经网络。(5)生成对抗网络的网络结构由生成网络和判别网络共同构成。生成网络和判别网络可以看作博弈中的两个玩家,在模型训练的过程中,生成网络和判别网络会各自更新自身的参数以使损失最小,通过不断迭代优化,最终达到纳什均衡状态。
计算机视觉(ComputerVision,CV)是机器认知世界的基础,最终的目的是使得计算机能够像人类一样“看懂世界”。计算机视觉是从图像或视频中提出符号或数值信息,分析计算该信息以进行目标的识别、检测和跟踪等。更形象地说,计算机视觉就是让计算机像人类一样能看到并理解图像。计算机视觉是一门涉及图像处理、图像分析、模式识别和人工智能等多种技术的新兴交叉学科,具有快速、实时、经济、一致、客观、无损等特点。1.计算机视觉的概念计算机视觉技术的基本原理是==利用图像传感器获得目标对象的图像信号==,并传输给专用的图像处理系统,将像素分布、颜色、亮度等图像信息转换成数字信号,并对这些信号进行多种运算与处理,提取出目标的特征信息进行分析和理解,最终实现对目标的识别、检测和控制等。2.计算机视觉的特点首先,计算机视觉是一个全新的应用方向,而非像预测分析那样只是对原有解决方案的一种改进。其次,计算机视觉能够以无障碍的方式改善人类的感知能力。最后,计算机视觉能够以远超其他人工智能工具的速度收集训练数据。
在采集图像、分析图像、处理图像的过程中,计算机视觉的灵敏度、精确度、快速性都是人类视觉所无法比拟的,它克服了人类视觉的局限性。
1.智慧医疗领域的应用2.公共安全领域的应用3.无人机与自动驾驶领域的应用4.工业领域的应用5.其他领域的应用
(1)有标注的图像和视频数据较少,机器在模拟人类智能进行认知或感知的过程中,需要大量有标注的图像或视频数据指导机器学习其中的一般模式。当前,海量的图像视频数据主要依赖人工标注,不仅费时费力,还没有统一的标准,可用的有标注的数据有限,导致机器的学习能力受限。(2)计算机视觉技术的精度有待提高,如在物体检测任务中,当前最高的检测正确率为66%,只能在对正确率要求不是很高的场景下应用。(3)计算机视觉技术的处理速度有待提高,图像和视频信息需要借助高维度的数据进行表示,这是让机器看懂图像或视频的基础,对机器的计算能力和算法的效率要求很高。
图像分类是根据不同类别的目标在图像信息中所反映的不同特征,将它们区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或其中的每个像素或区域划分为若干个类别中的某一种,以代替人的视觉判断。图像分类的任务就是输入一张图像,正确输出该图像所属的类别。图像分类就是寻找一个函数关系,这个函数关系能够将这些像素的数值映射为一个具体的类别(类别可以用某个数值表示)。图像分类的核心任务是分析一张输入的图像并得到一个给图像分类的标签,标签来自预定义的可能类别集。
深度学习是具有更多隐藏层数的神经网络,它可以学习到机器学习等算法不能学习到的更加深层次的数据特征,能够更加抽象并且准确地表达数据。因此,基于深度学习的各类算法被广泛地应用于目标检测中。1.R-CNNR-CNN采用的是选择性搜索(SelectiveSearch)算法,使用聚类的方法对图像进行分组,得到多个候选框的层次组。2.SPP-NETSPP-NET是在R-CNN的基础上提出的,由于R-CNN只能接收固定大小的输入图像,若对图像进行裁剪以符合要求,则会导致图像信息不完整;若对原始图像进行比例缩放,则会导致图像发生形变。3.FastR-CNN4.FasterR-CNN5.MaskR-CNN6.YOLO7.YOLOv28.SSD等等,不一一列举。
图像分割是图像分析的第一步,是计算机视觉的基础,是图像理解的重要组成部分,也是图像处理中最困难的问题之一。图像分割指利用图像的灰度、颜色、纹理、形状等特征,把图像分成若干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同的区域之间存在明显的差异性。此后,可以将分割的图像中具有独特性质的区域提取出来用于不同的研究。简单地说,图像分割就是在一幅图像中,把目标从背景中分离出来。对于灰度图像来说,区域内部的像素一般具有灰度相似性,而在区域的边界上一般具有灰度不连续性。
1.基于阈值的图像分割算法这种算法具有易于操作、功能稳定、计算简单高效等优点。其基本原理是根据图像的整体或部分信息选择阈值,依据灰度级别划分图像。2.基于边缘检测的图像分割算法这种算法的基本原理是通过检测边界来把图像分割成不同的部分。在一张图像中,不同区域的边缘通常是灰度值剧烈变化的地方,这种算法就是根据灰度突变来进行图像分割的。其按照执行顺序的差异可分为两种,即串行边缘分割法和并行边缘分割法。其重点是如何权衡检测时的抗噪性能和精度。若提高检测精度,则噪声引起的伪边缘会导致过分割;然而,若提高抗噪性能,则会使得轮廓处的结果精度不高。3.基于区域的图像分割算法这种算法的基本原理是连通含有相似特点的像素点,最终组合成分割结果。其主要利用图像局部空间信息,能够很好地避免其他算法图像分割空间小的缺陷。4.基于神经网络的图像分割算法这种算法的基本原理是以样本图像数据来训练多层感知机,得到决策函数,进而用获得的决策函数对图像像素进行分类,得到分割的结果。
(1)计算机视觉是从图像或视频中提出符号或数值信息,分析计算该信息以进行目标的识别、检测和跟踪等。(2)图像分类是根据不同类别的目标在图像信息中所反映的不同特征,将它们区分开来的图像处理方法。(3)目标检测的任务是在图像中找出所有感兴趣的目标(物体),并确定它们的位置和大小。(4)图像分割是利用图像的灰度、颜色、纹理、形状等特征,把图像分成若干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同的区域之间存在明显的差异性。
语言是人类智慧的结晶,自然语言处理是指利用计算机对自然语言的形、音、义等信息进行处理,它是计算机科学领域和人工智能领域的一个重要的研究方向。自然语言处理(NaturalLanguageProcessing,NLP)自然语言是指人们日常使用的语言,它是随着人类社会不断发展演变而来的,是人类沟通、交流的重要工具,也是人类区别于其他动物的根本标志,没有语言,人类的思维无从谈起。自然语言处理是指利用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它是计算机科学领域和人工智能领域的一个重要的研究方向,研究用计算机来处理、理解以及运用人类语言,可以实现人与计算机的有效交流。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。
(1)文字识别文字识别借助计算机系统自动识别印刷体或者手写体文字,将其转换为可供计算机处理的电子文本。对于普通的文字识别系统,主要研究字符的图像识别;而对于高性能的文字识别系统,往往需要同时研究语言理解技术。(2)语音识别语音识别又称自动语音识别,目标是将人类语音中的词汇内容转换为计算机可读的输入。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。(3)机器翻译(4)自动文摘(5)句法分析(6)文本分类(7)信息检索(8)信息获取(9)信息过滤(10)自然语言生成(11)中文自动分词(12)语音合成(13)问答系统
计算机处理自然语言的整个过程一般可以概括为4部分:语料预处理、特征工程、模型训练和指标评价。1.语料预处理(1)语料清洗,即保留有用的数据,删除噪声数据,常见的清洗方式有人工去重、对齐、删除、标注等。(2)分词,即将文本分成词语,如通过基于规则的、基于统计的分词方法进行分词。(3)词性标注,即给词语标上词类标签,如名词、动词、形容词等。常用的词性标注方法有基于规则的、基于统计的算法,如最大熵词性标注、HMM词性标注等。(4)去停用词,即去掉对文本特征没有任何贡献作用的字词,如标点符号、语气词、助词等。2.特征工程3.模型训练4.指标评价
1.自然语言理解2.自然语言生成
从微观上讲,自然语言理解是指从自然语言到机器内部的映射;从宏观上看,自然语言是指机器能够执行人类所期望的某些语言功能。自然语言理解中至少有3个主要问题第一,计算机需要具备大程序量的人类知识,语言动作描述的是复杂世界中的关系,这些关系的知识必须是理解系统的一部分;第二,语言是基于模式的,音素构成单词,单词组成短语和句子,音素、单词和句子的顺序不是随机的,没有对这些元素的规范使用,就不可能达成交流;第三,语言动作是主体的产物,主体或者是人,或者是计算机,主体处在个体层面和社会层面的复杂环境中,语言动作都是有其目的的。自然语言的理解和分析是一个层次化的过程1.语音分析2.词法分析3.句法分析4.语义分析5.语用分析
词法分析是理解单词的基础,其主要目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义.
句法是语言在长期发展过程中形成的、全体成员必须共同遵守的规则。句法分析也称语法解析,是对句子和短语的结构进行分析,找出词、短语等的相互关系及各自在句子中的作用等,并以一种层次结构加以表达。层次结构可以反映从属关系、直接成分关系,也可以反映语法功能关系。
1.缺乏有效的知识表示和利用手段2.缺乏未知语言现象的处理能力3.模型缺乏解释性和举一反三的能力4.缺乏交互学习和自主进化的能力5.单一模态信息处理的局限性
(1)与神经科学密切结合,探索人脑理解语言的神经基础,构建更加精准、可解释、可计算的语义表征和计算方法。(2)构建高质量的基础资源和技术平台。(3)打通不同模态信息处理的壁垒,构建多模态信息融合的处理方法和模型。
知识图谱(KnowledgeGraph)是一种揭示实体之间关系的语义网络。2012年5月17日,谷歌正式提出了知识图谱的概念,其初衷是优化搜索引擎返回的结果,增强用户搜索质量及体验。知识图谱以结构化的形式描述客观世界中的概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时在问答系统中显示出了强大作用,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。知识图谱不是一种新的知识表示方法,而是知识表示在工业界的大规模知识应用,它对互联网中可以识别的客观对象进行关联,以形成客观世界实体和实体关系的知识库,其本质上是一种语义网络,其中的节点代表实体或者概念,边代表实体/概念之间的各种语义关系。知识图谱的架构包括知识图谱自身的逻辑结构,以及构建知识图谱所采用的技术(体系)架构。
1.事实知识在描述实体的特定属性或者关系2.概念知识概念知识分为两类:一类是实体与概念之间的类属关系,另一类是子概念与父概念之间的子类关系。一个概念可能有子概念也可能有父概念,这使得全体概念构成层级体系。概念之间的层级关系是本体定义中最重要的部分,是构建知识图谱的第一步模式设计的重要内容。3.词汇知识词汇知识主要包括实体与词汇之间的关系(实体的命名、称谓、英文名等)以及词汇之间的关系(同义关系、反义关系、缩略词关系、上下位词关系等)。4.常识知识常识是人类通过身体与世界交互而积累的经验与知识,是人们在交流时无须言明就能理解的知识。常识知识的获取是构建知识图谱时的一大难点。常识的表征与定义、常识的获取与理解等问题一直都是人工智能发展的瓶颈问题。
1.知识图谱是人工智能的重要基石2.知识图谱推动智能应用3.知识图谱是强人工智能发展的核心驱动力之一尽管人工智能依靠机器学习和深度学习取得了快速进展,但是由于严重依赖人类的监督以及大量的标注数据,仍属于弱人工智能范畴,离强人工智能具有较大差距。强人工智能的实现需要机器掌握大量的常识性知识,将信息中的知识或者数据加以关联,同时以人类的思维模式和知识结构来进行语言理解、视觉场景解析和决策分析。知识图谱技术是由弱人工智能发展到强人工智能的必要条件,对于实现强人工智能有着重要的意义。
知识表示学习主要是面向知识图谱中的实体和关系进行表示学习,使用建模方法将实体和向量表示在低维稠密向量空间中,并进行计算和推理。知识表示方法主要分为基于符号的知识表示方法与基于表示学习的知识表示方法。
目前,知识建模的实际操作过程可分为手工建模方式和半自动建模方式。手工建模方式适用于容量小、质量要求高的知识图谱,但是无法满足大规模的知识构建,是一个耗时、昂贵、需要专业知识的任务;半自动建模方式将自然语言处理与手工方式结合,适用于规模大且语义复杂的知识图谱。
为了提供令用户满意的知识服务,知识图谱不仅要包含其涉及领域已知的知识,还要能及时发现并添加新的知识。
知识的完整性及准确性决定了知识图谱所能提供的知识服务的广度、深度和精度。因此,知识抽取在知识图谱的构建过程中显得尤为重要。
实体抽取的方法主要有基于规则与词典的方法、基于机器学习的方法以及面向开放域的方法。
关系抽取的目标是抽取语料中命名实体的语义关系。实体抽取技术会在原始的语料上标记一些命名实体。为了形成知识结构,还需要从中抽取命名实体间的关联信息,从而利用这些信息将离散的命名实体连接起来,这就是关系抽取技术。
知识存储是针对知识图谱的知识表示形式设计底层存储方式,完成各类知识的存储,以支持对大规模数据的有效管理和计算。
1.关系数据库2.图数据库
知识图谱中,知识的结构化表示主要有符号表示和向量表示两类方法。早期,常用一阶谓词逻辑(FirstOrderLogic)、语义网络(semanticnetwork)、描述逻辑(DescriptionLogic)和框架系统(FrameSystem)等基于符号逻辑的知识表示方法。而当前,主要使用基于图数据结构的三元组形式(头实体,关系,尾实体)来符号化地表示知识。
基于符号的知识图谱推理一般是应用推理规则到知识图谱上,通过触发规则的前件来推导出新的实体关系,这里的推理规则可能是知识表示语言所有的,也可能是人工设定或者通过机器学习技术获取的。基于符号的推理虽然有能够提高推理效率的各种优化方法,但是还是跟不上数据增长的速度,特别是在数据规模大到目前基于内存的服务器无法处理的情况下。为了应对这一挑战,研究人员开始对描述逻辑和RDFS的推理进行并行推进以提升推理的效率和可扩展性,并且取得了很多成果。并行推理工作所借助的并行技术分为单机环境下的多核、多处理器技术(多线程、GPU技术等)和多机环境下基于网络通信的分布式技术(MapReduce计算框架、Peer-To-Peer网络框架等)两大类技术。
实体关系知识推理的目的是通过统计方法或者神经网络方法,学习知识图谱中实体之间的关系。基于表示学习的方法将知识图谱中的实体与关系统一映射至低维连续向量空间,以此来刻画它们的潜在语义特征。通过比较、匹配实体与关系的分布式表示,可以得到知识图谱中潜在成立的实体间的关系。此类方法灵活自由,通常具有较高的计算效率,但可解释性较差,对于困难的推理问题往往精度不足。基于图特征的方法利用从知识图谱中观察到的图特征来预测一条可能存在的边,代表性工作包括归纳逻辑程序设计、关联规则挖掘、路径排序算法等。此类方法在推理的同时能从知识图谱中自动挖掘推理规则,具备明确的推理机理。然而,图特征的提取效率较低,对于超大规模的知识图谱更是如此。提高效率是基于图特征的方法亟待突破的壁垒。
模式归纳知识推理是从知识图谱中学习本体的模式层信息或丰富已有本体,包括对概念层次、属性层次、不相交公理、属性的值域与定义域和属性或概念的约束等公理的学习。
语义搜索是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户的真实意图,并依此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。
问答系统需要理解查询的语义信息,将输入的自然语言转换为知识库中的实体和关系的映射。