就在昨天,OpenAI向外界发布了其具有里程碑意义的一项研究——单次模仿学习算法(one-shotimitationlearning)。据悉,这种算法的绝妙之处在于允许人们使用虚拟现实工具来向人工智能传达任务指令,操作者只需要进行一次动作演示,之后人工智能就可以参照人类的动作进行模仿学习。
图丨Universe训练AI所用的游戏
本周,OpenAI又推出了用于机器人仿真的开源软件Roboschool,它基于增强学习研究平台OpenAIGym而开发的,提供了十几个新的操作环境,让用户可以在模拟环境中训练一个或多个机器人。
图丨Roboschool的训练画面
不过,相较以往,单次模仿学习算法的进步之处在于不需要人类操作者将动作反复重复,只要一次就足够人工智能来“领悟学习”。为了验证这一算法的可靠性,OpenAI进行了立方块堆叠的实验。
在实验中,OpenAI尝试“教”机械臂按顺序堆叠一批彩色的立方块,那么佩戴着VR设备的操作者就会首先在虚拟现实的环境中手动完成这一任务。然后,OpenAI就会使用其为机械臂专门开发的“眼睛”——视觉网络来仔细观察每一个动作。值得一提的是,视觉网络是一种基于成千上万个模拟图像而训练出来的神经网络,它是OpenAI早先很重要的一个研究项目,重点就是要用不断变化的模拟数据来强化对人工智能的训练。
但到这里,大家可能会有一个疑问,那就是为什么OpenAI没有选取现实世界中的照片或影像来供人工智能进行学习呢?毕竟这么做可以令机器人更直接的适应现实中的应用需要。其实,OpenAI的研究人员在这方面也是有所考量的。
首先,收集真实世界中的图像不仅费时费力,而且花费的成本也将是天文数字。反观模拟数据,可以更快、更有效率的达到相同的学习效果。也正因此,OpenAI为最新的人工智能算法提供的都是有着不同风格背景和纹理的虚拟图像。
另外很重要的一点,相较于真实世界的图像,人工智能算法在对虚拟图像进行分析的时候可以不用考虑现实场景的因素,可直接对机器人观察到的虚拟图像进行识别。
图丨OpenAI使用的虚拟图像
接下来,OpenAI的算法会将从视觉网络中收集到的信息传送给第二层神经网络——仿真网络,并以此来指导机械臂的动作。仿真网络的作用是分析出每一个动作背后的真实含义,并将其推广到新的应用场景中。那么它是怎么实现的呢?
而在立方块堆叠的应用案例中,该算法的训练目标就是要将不同摆放方式的立方块按相同的顺序搭成同样的“方块塔”。
图丨无论现实中的立方块如何摆放,机械臂都可以将它们摆成统一的样式
到目前为止,演示所用到的一切数据还只是模拟数据,而没有任何真实世界的影像或图片。OpenAI的技术人员JoshTobin解释说:“尽管机器人的动作与人类所演示的还略有不同,但它已经可以顺利地执行任务了。假以时日,或许人类只要进行一次演示,就可以让机器人毫厘不差地完成好各种不同的任务。”
图丨OpenAI的科学家JoshTobin
而OpenAI的研究团队也没有止步于此,他们的远期目标是让人工智能拥有快速学习的能力,并且可以适应环境中不可预测的变化。Tobin说,“人类的婴儿天生就拥有模仿别人的能力,而也正是这种能力使得我们可以快速的学习,我希望机器人也可以很快具备这种能力。”
事实上,不仅是OpenAI,越来越多的AI研究专家都在探索让人工智能变得无所不能的方法,为此,他们打造了可以自学、甚至可以互相学习的AI系统。而我们周围的世界和生活也正是因为这一次次的进步而变得更美好。