如何在有其他车辆参与的环境中让智能体(agent)学会自动驾驶的策略?这是一个复杂的问题,涉及感知、控制和规划多个层面。
研究提出实例感知预测控制(IPC,Instance-AwarePredictiveControl)方法,强调在不添加任何的人为示范(Expertdemonstration,常用于“模仿学习”中的策略优化)前提下,从无到有,完全通过强化学习中“探索-评估-学习”(explore-evaluate-learn)的路线进行策略的学习,提供了更好的可解释性和样本效率。
实例感知预测控制(IPC)框架。在给定历史观察情况下,引导网络(Guidancenetwork)有助于在动作空间中对动作序列进行采样。该模型既预测未来的视觉结构,也包含某些事件的可能性。Observation是包含语义分割和实例(其他智能体车辆)位置的视觉观察。G是场景级事件。P是每个预测的可能实例位置上的实例级事件。事件预测给动作选择带来了参考。视觉结构预测为动作决策带来解释。右下角的颜色条表示实例级事件的概率。
强化学习方法:从无到有,无人为示范学会自动驾驶策略
在回答此研究的亮点之处时,论文第一作者、卡内基梅隆大学在读博士曹金坤对澎湃新闻(www.thepaper.cn)记者表示,“我们在具有挑战性的CARLA(CarLearningtoAct,开源模拟器,可模拟真实的交通环境,行人行为,汽车传感器信号等)多智能体驾驶模拟环境中建立了无需人为示范(Expertdemonstration)的算法框架,提供了更好的可解释性和样本效率。”
当前的自动驾驶的策略更多的基于规则(rule-based):通过人设计具体的策略来进行驾驶。也有很多学者基于“模仿学习”(imitationlearning)的方法进行研究,即让车辆模仿人在不同的情况下的驾驶选择。
曹金坤表示,“这两种方法都有弊端,前者是人难免‘百密一疏’,有些具体的场景无法被规则很好地覆盖,或者在进行设置时很多衡量的指标都难以具有普遍性。后者的问题在于,车辆只能学习人类好的、安全场景下的驾驶策略,而一旦现实场景中的自动驾驶车辆进入了危险的、在学习时人没有作出示范的场景,它的策略就变成完全空白了。”
“而相比较这两个方法,强化学习(Reinforcementlearning)因为基于车辆的探索,所以可以更普遍地让车辆尝试和探索到不同的场景,相较于前两种方法有其优势。而如果我们之后希望可以有大规模、更加健壮的自动驾驶策略开发的流水线(pipeline),这种基于探索的策略或许至少会有一种有益的补充。”
完成这个强化学习过程的一个重要基础就是数据采集,从视觉场景直接获得原始数据(如相机观察数据等)进行强化学习一直是一个困难的问题,这也导致了“基于原始数据”(raw-data-based)的强化学习要比“基于状态”(state-based,指智能体通过人为定义的干净的状态描述来进行策略的开发)的强化学习进展缓慢得多。
研究团队为了切合现实的自动驾驶策略的真实性要求,使用了基于原始数据的方法,并且只使用了车前的一个无深度摄像头的数据,没有使用任何的雷达设备。基于这个唯一的传感器,被控制的车辆会对场景中的其他车辆进行检测。
对未来的预测:“稀疏”与“稠密”的信号
道路场景下的语义分割掩码示意图
所有前述的未来场景的视觉(车辆位置,语义分割掩码)和状态(碰撞几率、逆行的机会等)都被控制车辆在模拟器中行驶的同时收集下来,然后放在一个缓冲区(buffer)中。在驾驶收集数据的同时,这个智能体会从缓冲区中采样历史的驾驶记录,来进行视觉感知和状态预测模型的训练。整个模型的训练和策略演化都是完全在线(online)和无人为示范(demonstration-free)的,即在线的强化学习(onlinereinforcementlearning)。
“让智能体在有其他车辆参与的环境中学会自动驾驶策略有两个部分,场景感知与预测,以及基于此的驾驶策略选择。在场景感知与预测中,一个是智能体对于周边的建筑、车道等静止的物体要做出非常精准的未来状态估计,另一个是对于其他的车辆的未来状态做出准确估计,后者要难得多,”曹金坤对澎湃新闻表示。
“因此,尽管在长久的训练后,智能体对于周边的建筑、车道等静止的物体可以做出非常精准的未来状态估计,但是对于其他的车辆的未来状态还是会非常的挠头,”曹金坤表示。
多实例事件预测(Multi-instanceEventPrediction,MEP)中可能的实例位置的预测如何为不同的假设建立粗略的推理。
“为了解决这个问题,我们设计去预测未来的状态分布,而不是单一可能。但是从根本上说,这种方法受限于模型的遗忘和从有限数据采样预测分布的困难等问题,做的还是不够好的,需要进一步的改进,”曹金坤反思道。
利用预测结果进行自动驾驶策略的选择
在拥有预测未来场景和车辆状态的能力之后,研究团队还需要解决驾驶动作的采样和评估问题。
研究团队对这两个阶段分别设计了解决方案。
第一个困难便是在连续的动作空间中进行采样(比如踩油门的力度和方向盘的角度都是连续的数字)。对此研究团队设计了一个“指导网络”(guidancenetwork),其在连续的动作空间中首先进行离散化处理,通过当前和过去的场景观测在离散化后的空间中选择一个决策子区域,然后在这个选中的更小的动作区域中进行均匀采样得到最后的动作信息。
对于采样动作的评估困难的问题,其主要来自于对于未来其他车辆状态预测中的高噪声,而这种噪声又源自于前述的“多假设未来”。针对这个问题,研究团队设计了两阶段的(two-stage)损失函数(costfunction)计算和候选过滤几率。
自动驾驶研究中的局限:模拟环境与损失函数设计
在采访中,曹金坤非常坦诚地谈及这篇论文中方法的局限性和缺陷。曹金坤提醒,“受限于成本、法律等障碍,当前类似的实验都只能在模拟环境下进行,而这就对模拟环境的真实性提出了很高要求。而在如今的物理、数值计算、图形学等领域的发展状态下,我们还不可能有一个和现实场景一模一样的模拟环境,这就对开发策略在真实场景中的可用性带来了一些隐患。如果之后有了更加真实的模拟器乃至于‘元宇宙’,这个问题或许可以被缓解一些。”
同时,“我们的方法还基于人手工的损失函数的设计,这个问题也是现在的模型预测控制的一个几乎共有的问题,这个损失函数设计的好坏类似于强化学习中的奖励函数(rewardfunction)的好坏一样,都会对方法的效果产生很大的影响,但是因为设计开发者自身的知识、场景状态简化的可行性等,都不可能是最完美的,所以我们希望这个领域可以有一个更好的“适应性”(adpative)或者自学习的损失/奖励函数的方法出现,在不同的场景和需求下使用不同的约束函数。但是这又变成了一个鸡生蛋还是蛋生鸡的问题,现在来看还是非常的困难,”曹金坤补充道。
商用的完全的自动驾驶离我们还有多远?
附:
研究中采用的CARLA模拟器和游戏侠盗猎车5(GTA5)
CARLA模拟器中的道路场景
GTAV游戏中的驾驶场景
而GTAV是电子游戏侠盗猎车的最新作,在发布接近十年后仍旧拥有最优秀的视觉真实度和开放的场景设计,但是美中不足的是其作为一个游戏并不自带任何的编程控制接口,所以研究人员使用了一些外挂的控制脚本来进行自动驾驶车辆在游戏内的操作以及对其状况的分析。
澎湃新闻:请问做这样一个研究的初衷是什么?
曹金坤:现在自动驾驶的策略更多的基于规则(rule-based),也就是通过人手工设计的策略来进行驾驶。而在学术界中,很多人研究基于“模仿学习”(imitationlearning)的方法,也就是让让车辆模仿在不同的情况下人的驾驶选择。但是这两种方法都有弊端,前者是人难免“百密一疏”,有些具体的场景无法被很好的规则覆盖,或者在进行设置的时候很多衡量的指标都难以具有普遍性。后者的问题在于,车辆只能学习人的好的、在安全场景下的驾驶策略,而一旦现实场景中的自动驾驶车辆进行了危险的、在学习时人没有作出示范的场景,他的策略就变成完全空白了。而相比较这两个方法,强化学习因为基于车辆的探索,所以可以更普遍地让车辆尝试和探索到不同的场景,相较于前两种方法有他的优势。而如果我们之后希望可以有大规模的、更加健壮的自动驾驶策略开发的流水线(pipeline),这种基于探索的策略或许至少会有一种有益的补充。
澎湃新闻:您觉得这个研究还有什么不足?
曹金坤:坦白地说,这个工作只能说是在前述的方向上做出了一点点探索而已,为了达到公众期待的自动驾驶,需要做的还有太多太多,我这边想提及几点比较重要的技术方面的不足:
1.受限于成本、法律等等障碍,现在没有团队可以在真实场景中做类似的实验,更不要提冒着损坏大量的车辆乃至于造成道路上安全事故的风险进行完整的基于探索的策略开发了,所以我们都只能在模拟环境下进行,而这就对模拟环境的真实性提出了很高要求。在如今的物理、数值计算、图形学等领域的发展状态下,我们还不可能有一个和现实场景一模一样的模拟环境,这就对开发策略在真实场景中的可用性带来了一些隐患。如果我们之后有了更加真实的模拟器乃至于“元宇宙”,这个问题或许可以被缓解一些。
2.我们的方法还基于人手工的损失函数的设计,这个问题也是现在的模型预测控制的一个几乎共有的问题,这个损失函数设计的好坏类似于强化学习中的奖励函数(rewardfunction)的好坏一样,都会对方法的效果产生很大的影响,但是因为设计开发者自身的知识、场景状态简化的可行性等,都不可能是最完美的,所以我们希望这个领域可以有一个更好的“适应性”(adpative)或者自学习的损失/奖励函数的方法出现,在不同的场景和需求下使用不同的约束函数。但是这又变成了一个鸡生蛋还是蛋生鸡的问题,现在来看还是非常的困难。
做研究的过程某种程度上也是个不断自我否定的过程,逐步发现自己做的东西的不足,但在这里我还是对自己宽容一些吧,就先只说这三点吧。
澎湃新闻:这个项目过程中遇到的最大挑战是什么?
澎湃新闻:接下来的研究计划是什么呢?
澎湃新闻:您提到了在向公众传播技术问题时候对问题简化的带来的问题,我们作为媒体从业者对这点非常的感兴趣,可以展开说说么?
曹金坤:实际上就是一个严谨性和传播性的取舍了。现在人工智能很火,很多的公众号都是请我们这些从业者去写论文都难免会有问题,这是因为技术问题的描述本来往往是需要很长的前缀的,而在面向公众的传播载体中,一般很难这么做,毕竟一个句子太长,读两遍读不懂,读者就不看了。我们这些博士是因为不读不行,不然我们也不愿意读呀。