汽车头条|小米汽车智驾考试题库_驾考

上市两个月，小米推出端到端泊车。上市7个月，小米NOA实现全国能开。今年更火热的端到端+VLM技术，实现车位到车位辅助驾驶，也在不久之前搭载进入小米SU7，我们已经给大家提前试过，相信很快也会正式交付。

智驾功能快速落地的背后，是小米研发的提前布局，以及研发起点跳过规则时代，乘着东风迎接端到端+VLM，少踩了很多坑。11月14日，广州车展媒体日前一天，小米汽车首次展示车位到车位的智驾能力，雷军直接上路直播。期间，自动驾驶部总经理叶航军谈到明年的两个目标：量产车位到车位和数据积累。

为什么是这两个目标？带着这个问题，加上我们对小米车位到车位智驾首次体验后的各种疑问，我们在沟通会上与小米汽车智驾团队进行了深入交流。

在和智驾团队的交流中，他们特别谈到了端到端+VLM技术的落地。一年之前，小米智驾团队已经尝试布局端到端，今年首先落地泊车场景，接着打通城市智驾和泊车，也就是车位到车位，未来也会将端到端更新到高速智驾中。

目标是明年的此时，VLM的下一代VLA或许就有雏型了。视觉模型不仅仅能看到，在看到之后也将有动作的反馈。

谈到Transformer下一代技术的可能性，智驾团队认为，目前业内还没探索到像CNN到Transformer这么大跃升的技术，接下来一个时期的重点，依然是端到端。

在接近2小时的对谈中，智驾团队还输出了小米智驾在技术、团队、未来发展等方面的诸多细节。我们也将对话进行了书面整理。

Q：小米的车位到车位智驾已经是端到端+VLM了，小米端到端什么时候立项？

Q：既然早就规划了要做端到端，为什么还要先推送无图全国能开的版本？

A：无图和端到端并不是先后的关系，是事物的两个维度。这点可能是市场或者产品的同事认为这个阶段可以提供给用户，获取一点反馈，二者的研发并不割裂。

Q：和端到端能力一起上线的还有VLM，目前VLM有怎样的能力？

A：VLM的提醒功能，是目前可以产品化的阶段，它最大的作用就是识别这个大千世界。

今天语音播报可能觉得很新奇，明天播报可能觉得也还好，但是天天播报用户可能会觉得你能为我做点什么。因此，基于VLM的应用，将来一定会从语音播报，进化到车辆的「动作」。没错，这就是VLM的下一代VLA（Vision-Language-ActionModel）。

从VLM到VLA，从功能上看大致可以分为三个阶段：

目前，VLM的能力正处于第一阶段，传感器感知到环境后，通过语音和文字提醒驾驶员。

接下来第二阶段，VLM可能针对特定的场景做保护或绕行工作。

第三阶段就是进化到VLA，一个模型就能直接出轨迹（Action）。

Q：明年小米智驾团队的研发规划是怎样的？

A：明年小米智驾将专注于两件事，一个是端到端全场景车位到车位智能驾驶，目标是今年年底推出内测版，推给千人规模，形成内测团，到明年初，将以最快的速度把车位到车位做到全量量产交付。

Q：小米智驾团队明年的两个目标之一是数据积累，如何定义高质量的数据？高质量数据在所有智驾数据中的占比是多少？

A：这一点其实和人的学习过程非常像。例如，人在学习开车的时候，先是会走直线，然后会转弯。从不会到会，需要不少这样的「正例」样本。

而从会开车到熟练驾驶，则需要更多的「负例」样本，这可能是开车遇到的危险情况，可能是遭遇的危险天气。

因此，高质量的数据既要有驾驶过程中的「正例」样本，同样也需要大量的「负例」样本。

针对训练正向能力，大概有1%-5%的数据是有价值的。

而针对训练负向能力，还会远远低于这个比例，甚至有些数据是可遇而不可求的。因此为了解决这方面的问题，不光要从数据当中挖掘，还要做一些数据挖掘，例如在危险场景下再把危险程度提高。目前，小米智驾团队正在做的预研工作，发现通过这些数据训练还是非常有用的。

Q：智驾已经从规则时代走向端到端，是不是意味着智驾研发所需要的人更少了，需要多少人？

A：做一个不太恰当的比喻，以前大家在车端写规则，现在大家则是在云端写「规则」、找数据，其实是知识注入的方式发生了变化。这样有一个好处，更适合大规模地部署。

在曾经的规则时代，20个人写规则，但写得多了代码也就没法用了，因为规则会互相「打架」。但现在200人同时做数据就没问题。

因此，当前智驾研发并不是不需要专家或者不需要人了，相反人的数量不一定变少，大家都变成云端的专家了。

Q：现在有没有看到能够颠覆Transformer的下一代技术？

A：目前来看，还没看到能有从CNN到Transformer这么大跳跃的技术。未来1-2年应该是这样，要把端到端推到量产，就像是BEV+Transformer业内也通过1-2年才实现的量产。如果说更长远其实没有意义。

现在全行业还在积极地探索，或者说在做一些尝试，但最近还没有能够特别眼前一亮的东西，最近能够引发大家思考的其实是OpenAI的o1模型。

Q：小米智驾起步相对较晚，避开了规则时代的「坑」，直接做端到端会更有优势吗？

A：小米智驾的第一版就是BEV+Transformer，因此小米有很强的后发优势。同时，小米汽车依托集团，并非从0开始。其实各家都是这么多人，谁也不比谁聪明，并且这个行业大家都很勤奋。

Q：如何理解智驾领域的世界模型？

A：人类做事情的时候大脑会做平行推演。比如开车遇到障碍物时，人会同步评估「直接绕行」、「原地等待」、「探出车头看看」等多种操作及相应的结果，也就是预测未来的多个「平行时空」。对于智能驾驶，也需要一个引擎来预测自车各种可能的行为对周边环境未来3-5秒的影响，这个引擎就是世界模型。

这其实是个强化学习的概念，最大的难点在于世界模型要做好。但是强化学习做好的前提是世界模型要足够真。因此这是一个先有蛋还是先有鸡的问题。目前来说，还很难做出一个很真的世界模型，真实的世界模型其实就是《黑客帝国》中描述的场景。如果不够真，那想象出来的东西就是幻觉，给的东西都是错的。

Q：目前能够看到各家智驾功能上的差距越来越小，未来如何体现差异化？

A：各家的差异更多体现在能多大程度满足用户真实需求，而不是一直炫技而无法满足用户刚需。

Q：您认为端到端技术以及全国都能开功能，各家都「卷」完了吗？

Q：小米智驾现阶段的目标是进入行业的第一阵营，内部如何评估「第一阵营」？

A：对于智驾的评价是多维度的，我们很看重真实使用情况。用户的接管次数算一个，另外就是用户活跃度。

Q：目前试驾的车位到车位智驾，我们认为红绿灯起步速度相对慢，您怎么看待这个问题？

A：小米智驾做得比较快，同时目前整套系统由于在量产交付之前，还是有优化空间，这个场景可能延迟会大一些，目前相应的工程优化一直在做。

Q：小米智驾认为哪个城市对于智驾考验最大？

A：一方面是地理环境难，比如像重庆。另一种是交通设施有明显差异的，比如某些城市车道、交通灯位置不同。

小米不会对不同城市或者不同驾驶习惯做优化，最后可能是成为一个「超级司机」。

THE END

汽车头条

驾考模拟练

2024年新能源汽车智能化技术考试试题20241210143931.pdf

小米智驾能力有多强？真实表现会翻车吗？哔哩哔哩

小米汽车答网友问四十四集：现阶段智驾Max与标准版有何区别

小米汽车答网友问二十一集:提车前能否提前学习智驾等9项问题

小米汽车发布会文字完整版：人车合一，我心澎湃

一文了解小米汽车的整车智能

汽车头条

台积电成为第一家市值突破1万亿美元的亚洲科技公司；锦囊专家官网

小米SU7答网友问汇总（15集）汽车手机试驾车机特斯拉硬件配置小米su7