CVPR是计算机视觉领域的顶级学术会议,2019年共收到了5165篇有效提交论文,比去年CVPR2018增加了56%。不久之前,CVPR2019官网放出了最终的论文接收结果。据统计,本届大会共接收了1300论文,接收率接近25.2%。CVPR2019将于6月16日-20日在美国加州的长滩市举行。
简介
人类驾驶员不断地预测其附近的车辆和行人未来的行为,从而避免与其他车辆和行人冲撞,以规划安全迅捷的行车路线。自动驾驶汽车也必须预测其他人和车的轨迹,以便在未来的社会互动发生之前主动规划,而不是被动地在意外发生后才作出反应。这样做可以尽量避免不安全的行为,如急刹车、急并道、急转弯等。从根本上来说,轨迹预测让自动驾驶车辆得以推断他们将遇到的未来可能情况,以评估特定规划相对于这些情况的风险,从而得以选择最小化该风险的行车规划。这为自动驾驶系统增加了一层可解释性,对于调试和验证至关重要。
轨迹预测问题之所以具有挑战性,是因为智能体的动作是随机的,并且取决于他们的目的地、与其他智能体的社会交互、以及其所在场景的物理约束。预测还必须对不同场景中不断变动的智能体数量和类型具有泛化性。基于神经网络的预测算法往往很难编码类似的信息,因为标准的神经网络架构只接受固定的输入、输出和参数维度;而对于这类预测任务,这些参数维度会因场景而异。之前的论文或利用面向智能体(agent-centric)的方法进行轨迹预测,例如SocialLSTM[1],SocialGAN[2];或利用面向空间结构(spatial-centric)的编码方式解决这个问题,例如ChauffeurNet[3]。面向智能体的编码在多个智能体的特征向量上运行聚合函数,而面向空间结构的方法则直接在鸟瞰视角的场景表示图上进行运算。
MAT编码是一个鸟瞰视角的静态场景和动态多智能体的特征图(FeatureMap),包括多智能体编码通道(Multi-AgentEncodingChannels)(上)和静态场景编码通道(SceneContextEncodingChannels)(下)。单智能体长短时记忆网络(SingleAgentLSTM)编码器输出的多智能个体特征向量(红色)在空间上根据这些智能体的坐标对齐,构造出多智能体编码通道。多智能体编码通道与静态场景编码通道(场景编码全卷积网络的输出特征图)对齐,以保持智能体与场景间的空间结构。
MAT紧接着将融合了社会互动和场景物理制约的MAT编码结果解码,以同时预测场景中所有智能体的未来轨迹。现实世界中人的行为不是确定性的,智能体可以在同一个场景中做出不同的行为,MATF使用条件生成对抗训练(ConditionalGAN)来捕获预测轨迹的这种不确定性。
网络架构
多智能体张量融合(MATF)的网络架构简图如下所示:
接下来,结构类似U-Net的全卷积网络(ConvolutionalOperator:Multi-AgentTensorFusion)作用在构造出的多智能体张量上,用以推断社会交互和空间物理约束,同时始终保持空间结构和空间局部性特征,该全卷积网络最终输出融合的多智能体张量(上方)。每个融合的智能体向量从该张量切片得出,包含了推理加工过的相应智能体的社会互动信息、自身历史轨迹信息、以及其周围的场景物理约束信息。值得指出的是,因为MATF架构运行共享卷积运算,所以在同一次正向传播中可以计算得出的所有智能体的相应融合向量。例如,实心蓝框(上方)所表示的智能体融合向量融合了来自卷积层感受野内的该智能体附近的所有智能体和场景特征的综合推断信息。
MATF在此之后将这些融合的特征向量作为残差(Residual)加到相应智能体的原始编码向量上,以获得最终智能体编码向量。这些向量最终将被循环神经网络解码器(Single-AgentLSTMDecoders)独立地解码为网络对这些智能体的未来的轨迹的预测结果。MATF整个架构是完全可微的,并且支持端到端的训练。
驾驶数据集实验结果样例
马萨诸塞州驾驶数据集的定性实验结果样例如上所示。每辆车的过去轨迹以不同的颜色显示,其后连接的是网络对这些车未来轨迹的预测的采样。正确结果(GroundTruth)的轨迹以黑色显示,车道中心以灰色显示。
(a)一个涉及五辆车的复杂情景;MATF准确地预测了所有车的轨迹和速度分布;
(b)MATF正确地预测了红色车辆将完成换道;
(c)MATF捕捉到红色车辆是否将驶入高速公路出口的不确定性。
(d)当紫色车辆通过高速公路出口后,MATF预测它将不会退出。
(e)在这里,MATF无法预测精确的真实未来轨迹;然而,一小部分采样轨迹成功预测到了红色车辆将持续变道。
行人数据集实验结果样例
斯坦福无人机数据集的定性实验结果样例如上所示。从左到右分别是MATF多智能体-场景推断模型,MATF多智能体-无场景推断模型,和LSTM基准模型的预测结果,所有用来预测的模型都是确定性模型。蓝线显示的是过去的轨迹,红色是真实的未来轨迹,绿色的是三个模型分别预测的未来轨迹。MATF可以通过一个正向传播同时预测该图所示的所有的智能体的未来的轨迹。绿色的预测轨迹越接近红色的真实未来轨迹,预测就越准确。MATF多智能体-场景推断模型成功预测了:
(1)两个人或自行车从顶部进入环形交叉口,并将向左驶出;
(2)环形交叉路口左上方路径的一位行人正在转弯向左移动到图像的顶部;
(3)一个人在环形交叉路口的右上方建筑物门口减速;
(4)在一个有趣的失败案例中,环形交叉路口右上方的人向右转,向图像顶部移动;该模型成功预测了此次转弯,但失败在无法预测转弯的急缓程度。
MATF多智能体-场景推断模型正确预测了这些和其他各种场景的轨迹情形,其中一些情形也被MATF多智能体-无场景推断模型近似地预测了出来,但大多数情形都没有被基准的LSTM模型预测出来。
参考文献:
[1]A.Alahi,K.Goel,V.Ramanathan,A.Robicquet,L.FeiFei,andS.Savarese.Sociallstm:Humantrajectorypredictionincrowdedspaces.InProceedingsoftheIEEEInternationalConferenceonComputerVisionandPatternRecognition,2016.
[2]A.Gupta,J.Johnson,L.FeiFei,S.Savarese,andA.Alahi.Socialgan:Sociallyacceptabletrajectorieswithgenerativeadversarialnetworks.InProceedingsoftheIEEEInternationalConferenceonComputerVisionandPatternRecognition,2018.
[3]M.Bansal,A.Krizhevsky,andA.S.Ogale.Chauffeurnet:Learningtodrivebyimitatingthebestandsynthesizingtheworst.CoRR,abs/1812.03079,2018.