详解“端到端”下一代模子VLA，通向自动驾驶的要道跳板

栏目分类

热点资讯

AI企业出海要警惕审视新风险

业务中“接入大模子”，到底有哪几种接入方法？

数据为王期间：AI医疗何如重构万亿健康产业价值链？

人人首例！深圳南山机器东谈主完成前空翻特技

接入Deepseek-R1开启智媒新时间！泉州通客户端“AI

你的位置：科技前沿网 > 创新应用 > 详解“端到端”下一代模子VLA，通向自动驾驶的要道跳板

创新应用

详解“端到端”下一代模子VLA，通向自动驾驶的要道跳板

发布日期：2024-12-06 05:25 点击次数：191

详解“端到端”下一代模子VLA，通向自动驾驶的要道跳板

文｜李安琪

剪辑｜李勤

像海鲜市集相通，智能驾驶行业时间波涛正在快速更替。“端到端”刚成为新的时间范式，以至多数公司还没来得及完成研发款式切换，端到端就投入了时间换代时间。

“端到端”的最新进化宗旨是，深度融入多模态大模子。以前两年，大模子也曾展现出了读文、识图、拍电影的能力，但大模子开车只怕照旧头一遭。

近期，智驾行业出现了一个息争了视觉、话语和动作的多模态大模子范式——VLA（Vision-Language-Action Model，即视觉-话语-动作模子），领有更高的场景推理能力与泛化能力。不少智驾东说念主士王人将VLA视为当下“端到端”决策的2.0版块。

事实上，VLA模子最早见于机器东说念主行业。2023年7月28日，谷歌 DeepMind推出了全球首个截止机器东说念主的视觉话语动作（VLA）模子。

不外这个模子想法正快速扩散到智驾畛域。本年10月底，谷歌旗下自动驾驶公司Waymo推出了一个基于端到端的自动驾驶多模态模子EMMA。有行业东说念主士默示，这等于一个VLA模子架构，既有端到端智驾能力，还息争了多模态大模子。

以前，智能驾驶行业基于限定算法，进行了十数年探索。近两年，特斯拉引颈的“端到端”智能驾驶，成为新的时间宗旨，不仅让智驾具备更拟东说念主的发达，也能应付城市中海量的复杂交通场景。

协调“端到端”时间，行业玩家还会加多假话语模子等来栽植智驾能力上限。端到端+VLM（视觉话语模子），就被理念念等公司珍贵。

但不同于VLM相对孤独、低频地为端到端提供驾驶坑诰的款式，VLA架构下，端到端与多模态大模子的聚拢会更透彻。就连理念念东说念主士也向36氪汽车坦承，“可以把VLA行为是端到端+VLM的合体。”

VLA模子，很可能是“端到端+VLM”时间框架的“撤销者”。

有行业东说念主士默示，VLA模子对智驾的演进真义紧要，让端到端会通寰球的能力更强后，“永恒来看，在L2赞成驾驶到L4自动驾驶的飞跃中，VLA可能会成为要道跳板”。

一些车企智驾玩家也曾在背地发力。此前，理念念汽车曾在三季度财报电话会议上默示，里面也曾初始了L4级别自动驾驶的预研，在现时的时间阶梯基础上，研发能力更强的车端VLA模子与云表寰球模子网络拢的强化学习体系。

智驾公司元帅启行在取得长城汽车的7亿元注资之后，也默示将进一步布局VLA模子。元帅启行称，公司将基于英伟达最新智驾芯片Thor进行VLA模子研发，模子展望于2025年推出。

但也存有共鸣，VLA模子的上车难度不小，对时间和车端的芯片算力王人有高强度条件，“能够支抓VLA模子上车委用的芯片，可能在2026年才会出现。”

端到端最新宗旨：融入多模态大模子

自2023年以来智驾行业掀翻的BEV、端到端时间波涛后，智驾正冉冉将AI神经网罗融入感知、目的、截止等方法。比起传统基于限定的决策，基于AI、数据驱动的“端到端”领有更高能力天花板。

图源：元帅启行

但在“端到端”模子以外，车企们还辅以了假话语模、视觉话语模子等外挂，来提供更远大的环境会通能力。年中，理念念就推出了端到端模子+VLM（视觉话语模子）的决策。VLM模子对复杂交通环境具有更强的会通能力，可以给端到端提供干系驾驶坑诰。

不外据36氪汽车了解，理念念的端到端模子+VLM模子，是相对孤独的两个模子。“理念念VLM占用了一颗Ori芯片算力，目下主要对限速教导等场景作念出驾驶坑诰。”

而VLA模子，是将端到端、VLM两个模子合二为一。也等于说，多模态大模子不再作为端到端的外挂，而是成为端到端自生的一种能力。

谷歌Waymo近期发表的论文中，端到端自动驾驶多模态模子，不仅将录像头的视频和图像作为感知输入，同期还能以谷歌舆图“请在前哨第二个匝说念右转出匝说念”这种指示作为输入，以及聚拢车辆历史情状，输出车辆将来轨迹。

有行业东说念主士向36氪汽车默示，目下关于一些零散的复杂场景，智驾仍然枯竭学习数据样本。要是融入模态大模子，就能将大模子学习到的学问移动给智驾系统，可以有用应付corner case（长尾场景）。

智驾公司元帅启行CEO周光也以为，VLA模子是端到端的2.0版块。他默示，碰到一些复杂的交通限定、潮汐车说念、永劫序推理等零散场景时，智驾会比过往会通、应付得更好。

比如在推理时长上，传统rule-base（基于限定）决策下，智驾只可推理1秒钟路况信息然后作念出决策截止；端到端1.0阶段系统能够推理出将来7秒路况，而VLA能对几十秒路况进行推理。

“目下基本上人人沿着这条线也曾预研1年多了，不外来岁念念要量产照旧有很浩劫度。”有行业东说念主士默示。

端到端变奏，后发者的契机更少了

在投入畛域实行之前，下一代端到端决策还面对很施行的挑战。

一方面，现阶段车端芯片硬件不及以撑抓多模态大模子的部署落地。有行业东说念主士向36氪汽车默示，将端到端与VLM模子二合一后，车端模子参数变得更大，既要有高效及时推理能力，同期还要有大模子意志复杂寰球并给出坑诰的能力，对车端芯片硬件有十分高条件。

当下，高阶智驾的算力硬件基本为2颗英伟达OrinX芯片，算力��508Tops。有行业东说念主士默示，当今车端的算力很难撑抓VLA模子的部署。

而英伟达的最新一代车载AI芯片Thor有望改造这种时势，Thor的单片AI算力达1000Tops，并对AI、大模子等算力王人有可以支抓。

不外跟英伟达交往的东说念主士向36氪汽车默示，来岁英伟达Thor芯片冒失会展期发布，上半年起初有望先推出的是700Tops算力版块。但一颗700Tops算力的芯片也可能撑抓不了VLA模子，两片Thor的本钱又突出不少。

英伟达的芯片量产时候与本钱挑战，横亘在车企前边。为此，一些自研芯片的新势力也在紧追芯片程度。据36氪汽车了解，一家头部新势力的VLA模子展望2026年认真上车。“届时聚拢自研的大算力芯片，VLA的后果会更惊艳。”上述行业东说念主士默示。

好在，VLA模子架构下，数据方面的挑战莫得蓦的栽植。

有行业东说念主士告诉36氪，在端到端基础上，VLA模子融入了视觉话语模子、动作模子。但多模态大模子的数据并不难取得，包括也曾开源的大模子、互联网上已有的通用话语，王人可能成为智驾多模态大模子的养料。

更具挑战的是，怎样将端到端与多模态大模子的数据与信息作深度息争。这进修着头部智驾团队的模子框架界说能力、模子快速迭代能力。

这些王人决定了VLA模子不会太快投入智驾的量产方法。

关联词，时间阶梯的蓦的升级与竞赛变奏，为还没发力端到端的玩家建造了更高门槛，先发制东说念主的契机愈加顾惜。

上一篇：谷歌Gemini AI模子2.0行将上线，反应速率权臣升迁，你期待吗？

下一篇：防蓝光薄膜公司防电脑发射pet膜无荧光圈电子家具用，内添加母粒长效护眼