上市两个月,小米推出端到端泊车。上市7个月,小米NOA实现全国能开。今年更火热的端到端+VLM技术,实现车位到车位辅助驾驶,也在不久之前搭载进入小米SU7,我们已经给大家提前试过,相信很快也会正式交付。
智驾功能快速落地的背后,是小米研发的提前布局,以及研发起点跳过规则时代,乘着东风迎接端到端+VLM,少踩了很多坑。11月14日,广州车展媒体日前一天,小米汽车首次展示车位到车位的智驾能力,雷军直接上路直播。期间,自动驾驶部总经理叶航军谈到明年的两个目标:量产车位到车位和数据积累。
为什么是这两个目标?带着这个问题,加上我们对小米车位到车位智驾首次体验后的各种疑问,我们在沟通会上与小米汽车智驾团队进行了深入交流。
在和智驾团队的交流中,他们特别谈到了端到端+VLM技术的落地。一年之前,小米智驾团队已经尝试布局端到端,今年首先落地泊车场景,接着打通城市智驾和泊车,也就是车位到车位,未来也会将端到端更新到高速智驾中。
目标是明年的此时,VLM的下一代VLA或许就有雏型了。视觉模型不仅仅能看到,在看到之后也将有动作的反馈。
谈到Transformer下一代技术的可能性,智驾团队认为,目前业内还没探索到像CNN到Transformer这么大跃升的技术,接下来一个时期的重点,依然是端到端。
在接近2小时的对谈中,智驾团队还输出了小米智驾在技术、团队、未来发展等方面的诸多细节。我们也将对话进行了书面整理。
Q:小米的车位到车位智驾已经是端到端+VLM了,小米端到端什么时候立项?
Q:既然早就规划了要做端到端,为什么还要先推送无图全国能开的版本?
A:无图和端到端并不是先后的关系,是事物的两个维度。这点可能是市场或者产品的同事认为这个阶段可以提供给用户,获取一点反馈,二者的研发并不割裂。
Q:和端到端能力一起上线的还有VLM,目前VLM有怎样的能力?
A:VLM的提醒功能,是目前可以产品化的阶段,它最大的作用就是识别这个大千世界。
今天语音播报可能觉得很新奇,明天播报可能觉得也还好,但是天天播报用户可能会觉得你能为我做点什么。因此,基于VLM的应用,将来一定会从语音播报,进化到车辆的「动作」。没错,这就是VLM的下一代VLA(Vision-Language-ActionModel)。
从VLM到VLA,从功能上看大致可以分为三个阶段:
目前,VLM的能力正处于第一阶段,传感器感知到环境后,通过语音和文字提醒驾驶员。
接下来第二阶段,VLM可能针对特定的场景做保护或绕行工作。
第三阶段就是进化到VLA,一个模型就能直接出轨迹(Action)。
Q:明年小米智驾团队的研发规划是怎样的?
A:明年小米智驾将专注于两件事,一个是端到端全场景车位到车位智能驾驶,目标是今年年底推出内测版,推给千人规模,形成内测团,到明年初,将以最快的速度把车位到车位做到全量量产交付。
Q:小米智驾团队明年的两个目标之一是数据积累,如何定义高质量的数据?高质量数据在所有智驾数据中的占比是多少?
A:这一点其实和人的学习过程非常像。例如,人在学习开车的时候,先是会走直线,然后会转弯。从不会到会,需要不少这样的「正例」样本。
而从会开车到熟练驾驶,则需要更多的「负例」样本,这可能是开车遇到的危险情况,可能是遭遇的危险天气。
因此,高质量的数据既要有驾驶过程中的「正例」样本,同样也需要大量的「负例」样本。
针对训练正向能力,大概有1%-5%的数据是有价值的。
而针对训练负向能力,还会远远低于这个比例,甚至有些数据是可遇而不可求的。因此为了解决这方面的问题,不光要从数据当中挖掘,还要做一些数据挖掘,例如在危险场景下再把危险程度提高。目前,小米智驾团队正在做的预研工作,发现通过这些数据训练还是非常有用的。
Q:智驾已经从规则时代走向端到端,是不是意味着智驾研发所需要的人更少了,需要多少人?
A:做一个不太恰当的比喻,以前大家在车端写规则,现在大家则是在云端写「规则」、找数据,其实是知识注入的方式发生了变化。这样有一个好处,更适合大规模地部署。
在曾经的规则时代,20个人写规则,但写得多了代码也就没法用了,因为规则会互相「打架」。但现在200人同时做数据就没问题。
因此,当前智驾研发并不是不需要专家或者不需要人了,相反人的数量不一定变少,大家都变成云端的专家了。
Q:现在有没有看到能够颠覆Transformer的下一代技术?
A:目前来看,还没看到能有从CNN到Transformer这么大跳跃的技术。未来1-2年应该是这样,要把端到端推到量产,就像是BEV+Transformer业内也通过1-2年才实现的量产。如果说更长远其实没有意义。
现在全行业还在积极地探索,或者说在做一些尝试,但最近还没有能够特别眼前一亮的东西,最近能够引发大家思考的其实是OpenAI的o1模型。
Q:小米智驾起步相对较晚,避开了规则时代的「坑」,直接做端到端会更有优势吗?
A:小米智驾的第一版就是BEV+Transformer,因此小米有很强的后发优势。同时,小米汽车依托集团,并非从0开始。其实各家都是这么多人,谁也不比谁聪明,并且这个行业大家都很勤奋。
Q:如何理解智驾领域的世界模型?
A:人类做事情的时候大脑会做平行推演。比如开车遇到障碍物时,人会同步评估「直接绕行」、「原地等待」、「探出车头看看」等多种操作及相应的结果,也就是预测未来的多个「平行时空」。对于智能驾驶,也需要一个引擎来预测自车各种可能的行为对周边环境未来3-5秒的影响,这个引擎就是世界模型。
这其实是个强化学习的概念,最大的难点在于世界模型要做好。但是强化学习做好的前提是世界模型要足够真。因此这是一个先有蛋还是先有鸡的问题。目前来说,还很难做出一个很真的世界模型,真实的世界模型其实就是《黑客帝国》中描述的场景。如果不够真,那想象出来的东西就是幻觉,给的东西都是错的。
Q:目前能够看到各家智驾功能上的差距越来越小,未来如何体现差异化?
A:各家的差异更多体现在能多大程度满足用户真实需求,而不是一直炫技而无法满足用户刚需。
Q:您认为端到端技术以及全国都能开功能,各家都「卷」完了吗?
Q:小米智驾现阶段的目标是进入行业的第一阵营,内部如何评估「第一阵营」?
A:对于智驾的评价是多维度的,我们很看重真实使用情况。用户的接管次数算一个,另外就是用户活跃度。
Q:目前试驾的车位到车位智驾,我们认为红绿灯起步速度相对慢,您怎么看待这个问题?
A:小米智驾做得比较快,同时目前整套系统由于在量产交付之前,还是有优化空间,这个场景可能延迟会大一些,目前相应的工程优化一直在做。
Q:小米智驾认为哪个城市对于智驾考验最大?
A:一方面是地理环境难,比如像重庆。另一种是交通设施有明显差异的,比如某些城市车道、交通灯位置不同。
小米不会对不同城市或者不同驾驶习惯做优化,最后可能是成为一个「超级司机」。