本文结合现有的文献和方法以及作者自己的实践理解,详细阐述了图卷积在基于骨架的动作识别方向的应用,内容翔实,值得一读。
1.问题简述
2.基本概念介绍
3.方法和思路分析
4.文献解读
4.1时空特征的提取
4.2更全面的空间特征抽取策略
4.3数据增强
4.4综合方法
由于篇幅较长,将分为上下进行发布。
该任务常用的数据集是NTURGB+D数据集,以及Skeleton-Kinetics(用openpose在Kinetics-400视频数据集中得到3D骨架)数据集。
图卷积的核心思想是建立图中不同节点之间的信息交流,从而学习图中每个节点的嵌入特征表示,在只考虑一阶邻域的条件下,随着网络层数加深,每个节点的感受野都会越来越大,最终覆盖全图,实现信息的完全交互。
笔者认为该任务可以从三个领域借鉴方法:
3.骨架动作识别与视频动作识别都需要通过模型来提取动作的潜在特征,特别是时空特征的提取,因此可以相互借鉴方法。
数据增强:原始骨架数据反映的骨架位置信息,如果对相邻两帧求差值,便可以得到骨架的一阶动态信息,对相邻关节求差值亦可以得到骨骼动态信息。理论上模型也能学习到这些信息,但提前计算出来并作为输入,可以在一定程度上提升准确率。
类邻接矩阵策略:GCN中使用的邻接矩阵只包含一阶邻域,每个节点的感受野都非常有限,只有达到足够深度,网络层才能学习到远端关节之间的语义信息。此外,传统的邻接矩阵元素只有0和1两种值,在多数情况下很难反应关节间的相互关系。因此,设计一种不限于一阶邻域和整数值的邻接矩阵,是许多工作的探究点。对于骨架动作识别任务,主要建立非骨骼连接的关节之间的联系,例如手腕和脚踝。
图结构拓展:通常在构建图时,只将关节作为图的节点,然而骨骼(bones)与关节具有密不可分的关系,虽然视觉上骨骼通常是长条形的,但仍然可以抽象为一个点参与图卷积。这种做法可以显著提升图的分辨率以及对空间信息的表达能力。
局部划分(part-based)方法:同一肢节或同一个区域内的关节之间运动相似度会更高,按这个规律可以将骨架分为多个区域(part),在区域内和区域间定义不同的信息传播方式,可以有效的提取局部和全局特征。这种方法称为part-basedmethod。
因此由于水平有限,不能写得通俗易懂,可能会造成一些内容理解起来困难,因此建议结合原文阅读,还请谅解。此外,在解读文献时,陈述顺序和原文的顺序会有一些出入,这是因为不同文献侧重点不同,我会尽量按照我认为的合理顺序来分析。
此外,我会根据个人理解,从一些简单,通俗易懂的工作开始介绍,然后再介绍相对复杂的工作,这样有助于大家理清该领域的研究思路和方向。
时空特征的提取
DPRL:DeepProgressiveReinforcementLearningforSkeleton-basedActionRecognition(CVPR,2018)
网络结构
深度渐进式强化学习(DPRL)
帧蒸馏网络对应中的FDNet。样本中不同帧所含信息不同,且许多相邻帧往往具有大量的冗余信息,该工作通过强化学习蒸馏方法从原始帧序列中挑选最具代表力,可识别力的帧参与图卷积,使网络能得到更多的有用信息,而丢弃哪些混淆度强的无用信息。具体方法在文献中有详细介绍。
基于强化学习的帧蒸馏网络
类邻接矩阵策略
人工构建的非骨骼连接
具体地,对于固有骨骼连接,在邻接矩阵中用一个可学习参数α来代表连接权重,对非固有邻接,用可学习参数β来代表连接权重。
实验结果
在NTU数据上的实验结果,左右两列分别是crosssubject和crossview:
总结
02
ST-GCN:SpatialTemporalGraphConvolutionalNetworksforSkeleton-BasedActionRecognition(AAAI,2018)
时空图卷积
时空图卷积示意图
假设featuremap维度是(C,T,V)每个block由两部分组成:
1.对每一帧的图卷积:
2.在T维度进行的常规卷积,卷积核大小是(τ,1)。
此外图卷积和整个block都包含residual连接。
邻域划分策略
节点邻域是节点的邻居节点的集合,体现在邻接矩阵中。标准GCN对所有节点使用同一个权重矩阵,但人体运动过程中,存在关节距离重心越远,运动幅度越大的规律,即包含的信息越多,因此本文提出将邻域分为三个部分:自身,近重心,远重心,如下图中的(d):
三种不同的邻域划分策略
划分过后对每个节点而言,其邻域会分为三个部分,因此图的邻接矩阵就分为了三个子邻接矩阵,每个矩阵单独享有一个卷积权重,分别进行图卷积,最后通过加法叠加结果。这样划分会导致参数数量增加(扩增3倍),但网络对空间特征细节的刻画能力也更加强。
邻接矩阵自学习策略
通过为邻接矩阵赋予一个等大小的权重矩阵,可以让网络自动学习边与边之间的连接权重:
M表示待学习的权重矩阵(全1初始化),Aj表示第j个邻域对应的邻接矩阵,通过二者的hardmard乘积得到最终的邻接矩阵。这种做法可以在一定程度上提高对已有物理连接的刻画能力,但不能使A中的0值变为非0值,即不能在关节间建立非物理连接。
提出新数据集
本文通过openpose从视频中提取2D骨架序列,再将置信度作为z轴,从而得到3D骨架序列,由此从Kinetics-400视频行为数据集中得到了Kinetics-skeleton骨架行为数据集。
在NTU数据集上的实验结果:
在Kinetics-skeleton数据集上的实验结果:
本文通过线性堆叠的GCN和TCN来间接扩大每个节点的感受野,非常有助于时空信息的提取。对邻域的经验性划分虽然会增加参数数量,但也能提高网络对不同关节特征的刻画能力。此外,自学习的mask参数能让关节连接权重更加平滑,但相较于DPRL,本文没有建立非相邻关节之间的直接连接,因此远端关节之间的信息交互会更困难。而对于DPRL,其使用的是人工定义的非骨骼连接,因此对空间信息的刻画能力非常有限。
更全面的空间特征抽取策略
虽然骨架代表了物理上真实存在的关节连接,但在骨架的基础上建立更多的非物理连接,甚至是关节的强连通图,能提高每个节点的感受野,从而让网络在浅层就能学习到更多的有用信息。
HCN:Co-occurrenceFeatureLearningfromSkeletonDataforActionRecognitionandDetectionwithHierarchicalAggregation
HCN网络结构示意图
这里输入Input的大小是T*V*C,T是帧长度,V是节点数量,C是输入通道。
开始的两层卷积是常规的通道卷积,然后将V和C维度对调,这样接下来的卷积就会将V作为通道处理,而卷积对通道的操作是全连接,因此任意两个节点都会进行加权求和。这种做法体现在图上,相当于建立任意两个节点之间的可学习权重连接,将图当成强连通图对待。因此该方法虽然没有直接使用图卷积,却仍然能取得不错的效果。
NTU数据集:
2S-AGCN:Two-StreamAdaptiveGraphConvolutionalNetworksforSkeleton-BasedActionRecognition(CVPR,2019)
本文在ST-GCN的基础上,提出了更加合理的邻接矩阵策略,不仅包含自学习的邻接矩阵,还通过self-attention机制为每个样本计算单独的邻接矩阵,大大增强了网络对空间特征的抽取能力。
数据增强
即将bones流作为独立数据流,独立于joint流进行训练。预测时结合两个网络的预测值,得到最终预测结果:
适应性邻接矩阵策略
这里的k表示三种不同的领域,即ST-GCN中的spatial邻域划分策略。邻接矩阵由三部分构成:
Ak是基础邻接矩阵,值只有0和1,只包含关节间原有的直接物理连接。
Bk是权重邻接矩阵,初始化为0,由网络自动学习。
Ck是attention邻接矩阵,计算方式为embedded高斯函数:
三个邻接矩阵的整体计算过程可以用类似于non-local网络中的图例来表示:
在NTUcrossview上的Ablation实验:
个人认为在crosssubject条件下对比会比较明显。NTU数据集:
Kinetics-Skeleton数据集:
03
DGNN:Skeleton-BasedActionRecognitionwithDirectedGraphNeuralNetworks
在ST-GCN和2S-AGCN的基础上进一步提高了抽取空间特征时的细粒度。
有向图信息传播
在ST-GCN中提出的邻域划分策略,实际上可以概括为不同的信息传播方向区别对待,信息从末端关节流向中心关节和从中心关节流向末端关节应该区别对待。因此本文用有向图来处理不同的信息方向:
此外在,2S-AGCN中bones流和joints流相互独立,然而二者实际上应该具有更加紧密的联系,因此本文将Bones也作为一种节点参与到信息流传播中,这样可以提高空间特征的细粒度。这与Sym-GNN中的AGC部分有一定的相似之处。
结合以上两点,可以用关联矩阵(incidencematrix)来表示节点和边之间的连接关系,关联矩阵规模是(Nv,Ne),即节点数和边数。关联矩阵中1表示节点是边的源节点,-1表示目标节点。进一步地可以将源节点关联矩阵和目标节点关联矩阵分开:
在进行信息传播时,先分别以节点和边为中心聚合特征,然后再更新节点和边的值:
g表示聚合函数,通过关联矩阵图卷积进行聚合,h表示更新函数,这里是1*1卷积(即FC层)。假设某一层输入通道是Cin,输出通道数是Cout,则1*1卷积的卷积核大小为3*Cin*Cout,要比标准图卷积中Cin*Cout的卷积核大三倍。因此参数数量相对来讲要多很多。
本文将motion流作为另一个独立训练的数据流,bone和joints计算motion值的方法相同,即计算两帧差值。
PBGCN:Part-basedGraphConvolutionalNetworkforActionRecognition(BMVC,2019
典型的part-based方法,将人体骨架分为多个子图,定义了子图内部和子图之间的信息传播方式,这样便能更好的抽取局部关节信息,同时加快信息传播速度。
何(geometric)特征与动力学(kinematic)特征
这里的几何信息就是骨骼特征(包含非骨骼连接),即在空间上计算相邻关节坐标差值,动力学特征就是运动特征,通过计算相邻帧对应关节的差值得到。
基于局部划分的图卷积(PBGC)
首先将人体骨架图分为多个子图:
并且保证相邻两个子图间至少有一个公共关节。然后对每个节点,首先在其所在的子图内执行图卷积,再执行子图间的信息传播:
其中(5)表示在分图p中的点vi的卷积结果,Nkp是点vi在子图p中的邻接节点集合,Wp表示点子图p的权重矩阵(不与其他子图共享),(6)表示点vi与相邻子图的邻接节点之间的信息聚合。其中聚合函数定义如下:
即加权平均。因此,每个点先在其所属子图内的邻域进行图卷积,再与相邻子图的邻接节点进行信息聚合。
由于不同子图之间不共享权重,因此子图划分策略就异常重要。本文提出了多种不同的划分策略,可以按上下不同肢体划分,可以按左右划分,其中效果最好的是四部划分:
这是因为人体骨架左右对称,左手和右手往往具有非常相似的行为,适合共享权重,而不同类型的肢体往往具有不同的运动特征,因此适合划分到不同子图。
这部分与ST-GCN中的时空图卷积比较相似。
公式15表示时域卷积,将每个关节与该关节前后τ帧内的值做加权求和。
04
2s-SDGCNSpatialResidualLayerandDenseConnectionBlockEnhancedSpatialTemporalGraphConvolutionalNetworkforSkeleton-BasedActionRecognition(ICCV2019,workshop)
本文方法相对较简单,即认为空间信息重要性更强,因此在残差连接中也进行图卷积:
上方绿色部分是本文使用的残差连接,而ST-GCN是用的残差连接只有简单的通道变换,没有邻接矩阵参与运算。
用公式表示如下:
此外,还添加了dense连接(DCB):
将这两种方法结合到一起,再嵌入到其他方法中。
05
STGR:Spatio-temporalgraphroutingforskeleton-basedactionrecognition(AAAI,2019)
空间图路由子网络
首先根据一种无参数图划分策略,将每一帧的原始图划分为K个子图。将每个子图都当成强连通图,这样就能得到空间图序列:
得到了空间连接图序列后,就要从所有图中选出最具信息的一个,首先用7*7的卷积来聚集局部特征,然后再全局取平均(GAP):
这样就将每一时刻的图都用一个标量值来表示:
其中:
整个这一步,实际上就是对每个时刻的图做了一次加权平均。
首先将输入序列用每个关节的时序轨迹来表示,这样就得到了N个独立的关节轨迹。接着用一个LSTM来学习每个关节轨迹的浅层表示:
接着通过FC层转换和向量点乘(类似于embedded高斯函数)来计算两个关节之间的联系:
最终学习到关节之间的时域联系。
时空特征融合
网络结构示意图
通过concate的方法融合学习到的图,然后进行图卷积。
关节连接可视化
06
AGC-LSTM:AnAttentionEnhancedGraphConvolutionalLSTMNetworkforSkeleton-BasedActionRecognition(CVPR,2019)
通过求相邻帧插值可以得到motion信息,再通过FC和将motion信息与原始数据结合,然后通过LSTM进行初步的通道扩张:
得到的Eti具有512通道数,作为LSTM网络的输入。此外,本文还将part流作为另一个数据流:
通过双流融合来提升效果。
注意力增强型图卷积LSTM网络
和传统LSTM一样都具有三个门结构,输入门,遗忘门,输出门。但是这些门是通过图卷积操作来计算的。单元结构和计算公式如下:
空间注意力机制
对每个时步而言,将其所有节点对应的输出值加权求和:
然后再添加res连接:
时序平均池化
损失函数
01
VA-fusion:ViewAdaptiveNeuralNetworksforHighPerformanceSkeleton-basedHumanActionRecognition(TPAMI,2018)
光学估计和穿戴式传感器是目前常用的两种三维运动数据采集方法。而光学估计会受到机位和视角的影响,即对同一段动作,在不同的机位和角度下,估计得到的3D骨骼数据是有差异的:
本文提出了一种视角自动学习网络来解决这个问题,即让网络自行学习最佳的摄像机视角,即对骨架进行一定的旋转和平移,参数为[αt,βt,γt,dt],其中前三个分别对应是三个轴的旋转参数,dt表示位移,因此变换公式为:
对每一帧,都有一组对应的视角变换参数。
可以分别在RNN和CNN上学习视角变换,不同的网络对应不同的变换方法:
其中LSTM作为主网络时,通过LSTM层学习四个参数(对每一帧)在CNN作为主网络时,先将骨架映射为伪RGB图,然后通过以下公式进行坐标变换:
其中R是旋转矩阵,由旋转参数得到。
本文还提出了随机旋转骨架的数据增强方法,可以在一定程度上降低过拟合。此外,将坐标原点移动到每个动作第一帧的身体中心,这样可以让网络对起始位置不敏感。
3SCNN:Three-StreamConvolutionalNeuralNetworkwithMulti-taskandEnsembleLearningfor3DActionRecognition(CVPRworkshop,2019)
传统的数据增强方法中,joint,bone,motion数据通常是独立的,通过在网络最后进行融合来提高识别精度。本文提出可以在网络中段对三个特征流做信息交互。
整个网络分为三个stage:
从原始数据中额外生成motion和bone数据,这样就有三个数据流。
Enhancedpoint-levelfeaturelearning
数据特征增强。作者认为即便是3D骨骼数据,同一序列不同的机位下估计得到的数据仍然具有差异,因此可以将原始动作通过坐标旋转变换来增强,即coordinateadaptivemodule。而旋转矩阵不是人工提前设定,而是由网络通过FC层学习得到:
L就是旋转矩阵的个数,即增强的数据倍数。将得到的L组增强数据在通道维度进行concat,然后再通过point-levelconvolution(参考HCN)进一步提取特征。
Pairwisefeaturefusion
将三个数据流进行特征融合,有两种融合方法:
Convblock包含两层卷积,卷积核大小都是3*3,channel为128,256。Concat即特征融合,在通道维度上融合。图(a)是不共享convblock的参数,其效果要好于图(b)的共享参数block,但相应的参数也增多。
Ensemble
将三个数据流通过损失函数求和的方法实现相互监督:
SGN:Semantics-GuidedNeuralNetworksforEfficientSkeleton-BasedHumanActionrecognition
侧重于模型的效率,通过人工特征工程来进行数据增强,从而保证网络能在更少的层数下(相对于之前的GCN工作),仍然能达到很好的效果。
DynamicsandSemanticsinformation
Frameindex和jointtype就是semantics信息,用One-hot表示。
通过两层FC分别将这四种信息映射到高维空间,然后再通过concate的方式进行特征聚合:
Semantic-awaregraphconvolution
不能只使用dynamic信息来决定关节之间的连接,因为不同关节对的dynamics信息可能相同,而他们的连接权重应该是不同的。即便是同一个序列,其在不同帧中的关节之间的关系也可能不同。因此还需要联合sematic信息。对于一个T帧,每帧有J个关节的序列,为其构建一个有T*J个节点的图。其中帧号为t,关节号为j的关节,其对应第J(t-1)+j个节点。这样便能得到一个spatio-temporalgraph,可以对这个graph计算相应的邻接矩阵,接着通过动态的图内容自适应连接(contentadaptiveconnections)来计算邻接矩阵,和2S-AGCN不同的是,本文提出即便是在一个序列内,不同帧所包含的关节并发信息也不同,因此需要将自适应性细化到每一帧。计算方法类似于高斯函数:
接着通过GCN和residual残差连接的结合,来实现信息在关节间的传播:
其中G是邻接矩阵,所有W都是可学习的权重矩阵(变换矩阵)。自适应邻接矩阵会将图变成强连通图,因此发掘的信息是全局global信息,而对于局部的信息(parts,local),可以用CNN来发掘。
Semantics-awareconvolution
GCN主要是提取了关节之间全局关联(globalcorrelation)的探究,这是因为adaptiveconnections让每个关节都有一个覆盖其他所有关节的卷积核(表现在邻接矩阵G上),而CNN具有更小的卷积核,可以发掘关节之间的局部关联(localcorrelation)模式(pattern),这和之前的那些基于parts的方法有相同的思想。
Sym-GNN:SymbioticGraphNeuralNetworksfor3DSkeleton-basedHumanActionRecognitionandMotionPrediction(submittedtoIEEE-TPAMI,2019)
本文融合使用了诸多上面已经介绍过的方法,并提出了预测和分类任务相互监督的训练方法,可以有效提升模型对关节特征的获取能力。
首先将bone也作为一个独立数据分支,通过和joint流融合得到预测结果。(上图中的Dual和Prime)。
其次提出通过求差值,求导操作(differenceoperate)获取关节的动态信息,包括移动向量(motion),速度和加速度:
β取0,1,2时分别对应motion,velocity和accleration。
邻接矩阵策略
本文的邻接矩阵策略相对其他工作要复杂一些,主要由以下两部分构成:
1.ActionalGraphConvolution(AGC)
首先设计了一种信息在节点和边之间循环传播更新的方法,这样做是为了得到节点的高维特征表示,进而用于计算邻接矩阵,而不是直接更新节点信息:
注意,第0次迭代时,每个节点的输入是该节点在所有帧的位置所构成的序列,即关节轨迹(nodetrajectory),因此以上公式不包含维度t的信息。F都表示FC层。
实际上,这样的信息逐层传播迭代的思想与GCN相同,但细节不同。首先始终以节点为终点,而边只是中间变量,其次任何两个点之间都要进行传播,相当于是在强连通图下进行特征传播,而不局限于关节的物理连接。多次迭代后每个节点都能充分的聚合其他所有节点的信息。且不同于ST-GCN,因为节点在信息传播时,是带着时序所有信息进行传播的。
在经过了K次迭代后,每个节点的特征都得到了更新,此时根据embedded高斯函数来计算两个节点之间的关联系数,由此得到一个新的邻接矩阵:
f和g分别是两个embedding全连接层。学习到的邻接矩阵类似于2S-AGCN中的attention邻接矩阵,只不过embedding采用的是全连接层而不是卷积层。这部分的整体计算流程如下:
计算得到邻接矩阵后,进行常规的图卷积:
注意此时图卷积的对象就是每一帧的数据(t上标),而不是关节轨迹。
1.2StructuralGraphConvolution(SGC)
这部分通过对基础邻接矩阵取不同的幂次来提升每个节点的感受野,卷积公式如下:
依然是对每帧进行图卷积,其中γ表示对邻接矩阵取γ幂次。此外,类似于ST-GCN,还为A添加了加权权重:
1.3jointscalegraphconvolution(JGC)
对前面两部分卷积结果加权求和:
注意这里卷积对象都是单帧图。本文还提出了一种关节位置限制机制,来限制每一层提取的特征的变化程度,从而提高稳定性,降低噪声数据的影响。
时序特征提取
joint-scalegraphandtemporalconvolutionblock(J-GTC)
ρ是非线性激活函数。TC将每个关节与其前后多帧范围内的值进行卷积,属于1D卷积。
J-GTCblock同时包含了batchnorm,dropout,residualconnection模块。
多尺度卷积:Part-based策略
GC-LSTM将part-based流作为独立数据流输入,只在最后与Joint流做特征融合,本文加强了两个数据流之间的信息交流,主要是在合适的位置将两个特征流沿节点维度进行拼接:
首先将人体分为多个part,每个part内的关节取平均值,这样每个part就变成了一个节点这么做相当于降低了图的分辨率。两个数据流通过pooling和matching的方法进行特征交互。Matching是将partscale图的单个节点复制多次,得到jointscale图。
分类和预测任务共同监督
同时进行动作识别和动作预测的任务(分别使用不同的任务网络),在优化时,损失函数为二者的加权和:
其中参数通过multiplegradientdescentalgorithm算法获得。
FacebookAIResearch研究科学家。ResidualNet提出者。
池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Maxpooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。
在计算网络中,一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数(例如ReLU或S型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。
线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为0,则相应的特征对模型来说没有任何贡献。
在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。
傅里叶变换(法语:TransformationdeFourier、英语:Fouriertransform)是一种线性积分变换,用于信号在时域(或空域)和频域之间的变换,在物理学和工程学中有许多应用。因其基本思想首先由法国学者约瑟夫·傅里叶系统地提出,所以以其名字来命名以示纪念。实际上傅里叶变换就像化学分析,确定物质的基本成分;信号来自自然界,也可对其进行分析,确定其基本成分。
分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数
映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。
数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。
规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0到1.0或0.0到1.0。通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。
过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。
LSTM或GRU中特有的机制
堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。
人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。
一般目标检测(genericobjectdetection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。
一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。
假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。
图分类是许多不同领域中实际应用的问题。为了解决这个问题,通常会计算某些图形统计数据(即图形特征),它们有助于区分不同类别的图形。在计算这些特征时,大多数现有方法会对全图进行处理。
视频动作识别任务涉及从视频剪辑(一串二维帧序列)中识别不同的动作,其中的动作可能贯穿整个视频,也可能不会。这有点儿像图像分类任务的一种自然扩展,即在多帧视频中进行图像识别,然后从每一个帧中聚集预测结果。