AlphaGo与柯洁的人机大战2.0即将开启,人工智能与人类的博弈再次成为焦点。
事实上,AI在下围棋和玩电子竞技上是不能简单类比的。以往用算法去创造一个超越人类玩家的AI,几乎是不可能的。但随着强化学习的出现,它赋予了电脑自己去学会怎么达到一个目标的能力。正是因为强化学习的发展,使得AI在电竞行业的跨领域发展有了新的突破。
当然,强化学习的“正经”用法不是打游戏。竹间智能在构建AI对话系统、训练情绪识别模型时,都用到了强化学习,且其起到了非常重要的作用。因此,我们邀请了竹间智能机器学习科学家兼LOL资深玩家王璈,来结合强化学习和LOL这类策略类游戏,和大家聊聊。
(注:本题一个已知限制——视野公平)
关于“AI是否能在LOL上打赢人类获得冠军”这个问题上,鉴于其本身的定义还是比较宽泛的,所以草率地说可以或者不可以,大概和脱离剂量谈毒性没多大差别。
恰巧学过一年AI,又是个爱玩游戏的人,当年也因学习Deepmind,之后又受到Atari游戏的影响做了强化学习方向的毕业论文,所以感觉应该可以谈谈我对题主这个问题的一些想法(放心,没有公式也没有教科书式的定义。)
我想在回答这个问题之前,第一步是理清LOL在本质上是个什么样的游戏。LOL的游戏设计师看起来应该是想模拟一个局部的战争,那既然是模拟战争,肯定就要分战略层面和战术层面。
首先在战术上,我觉得可能不需要使用一些机器学习的方法就可以做的还不错了。比如很久之前Dota中的AI就可以做到无缝连控,躲指向性技能,正反补不漏兵。能做到这些,在线上面对一般玩家甚至是职业玩家都可以不落下风。这就是代码比人厉害的地方,犯错的永远是人,代码永远不会错。
但是为什么就算是一般玩家也能击败看起来这么厉害的Dota中的AI呢?因为Dota中的AI缺少战略层面的东西。
一般在玩LOL的时候,我在战略上大概会做这几种决策:发育,攻击,侦查,协助,还有撤退。这几个大家都知道我就不一一细说了。早期游戏AI几乎都缺战略层面的东西。一般是用一些类似作弊的机制来平衡战略上的缺失。比如开全图,电脑买装备不要钱。但是这种平衡很容易就被聪明的玩家打破。
该问题有一个已知限制——视野公平。Alphago能成功是因为围棋是一个信息完全博弈,所以会有人说Moba带战争迷雾就变成了不完全信息博弈,如果电脑看不到我在做什么,它就没有任何可以针对我的办法了。这肯定是不对的。既然提到不完全信息博弈,贝叶斯纳什均衡告诉我们,应该还是会有最优解的。为了便于理解,你可以想想你自己遇到中单miss时会怎么办,要么我做了视野,心安理得地继续发育,要么我没有视野回塔下躲一波。这些决策以现在的知识和计算能力一般都是可以被量化为概率的。实在不行不是还有蒙特卡洛嘛。如果算不出来我多试几回也就知道概率了。
换句话说,AI能够和你一样猜出一个收益最高的决策。AI可以被设计得比你我有心计得多。举个栗子:Libratus在不限注德州扑克上击败了4名顶级玩家。
所有游戏在设计的时候都可以被转换成回合制的,包括FPS游戏。
这里可以稍微对强化学习做一个介绍:
(此处强化学习的细节从略,以后若有需要再写。)
最后说个题外话,从AI这个名词诞生开始,大众对正在研究的AI的理解大概一直都是有偏颇的,这也是AI两次寒冬的原因,这和转基因技术的情况非常相似。既然学了点AI,然后因为热爱AI加入了竹间智能,和伙伴们一起开发情感人工智能。所以感觉自己就有帮助它健康发展的义务。同样,这也是转基因技术的从业者们正在做的事情。对于机器学习我自己有一个片面的武断的一句话理解,大概是:只要有人能做到,机器学习也能做到;如果所有人都做不到的,机器学习也做不到。