清华新VLA框架加快破解具身智能留步实验室“魔咒”

栏目分类

热点资讯

中汽中心葛鹏：智能网联汽车测试正在鼓励，号召两大行业加强疏导

自动驾驶“寒流”来袭，纵目科技工资披发受影响，改日何去何从？

奇瑞智能肯求充电电流调遣专利，处置电板充电问题并普及安全

智能驾驶与阴事保护须并驾皆驱

云天励飞：入驻华为、荣耀、OPPO、VIVO等末端品牌供应链

你的位置：科技前沿网 > 数字趋势 > 清华新VLA框架加快破解具身智能留步实验室“魔咒”

数字趋势

清华新VLA框架加快破解具身智能留步实验室“魔咒”

发布日期：2024-12-27 15:43 点击次数：93

清华新VLA框架加快破解具身智能留步实验室“魔咒”

DeeR-VLA团队投稿

量子位 | 公众号 QbitAI

打算、存储蹧跶高，机器东谈主使用多模态模子的阻截被处理了！

来自清华大学的辩论者们遐想了DeeR-VLA框架，一种适用于VLA的“动态推理”框架，能将LLM部分的有关打算、内存支拨平均镌汰4-6倍。

（VLA：视觉-谈话-动作模子，代表一类用于处理多模态输入的模子）

简便来说，DeeR-VLA就像东谈主的决议系统：简便任务快速想考，复杂任务仔细想考。通过多出口架构，模子在鼓胀打算后即可提前“刹车”，幸免糜掷算力。

在CALVIN机器东谈主操作基准测试中，DeeR-VLA达成了大谈话模子（LLM）打算本钱减少5.2-6.5倍，GPU内存减少2-6倍，同期保持了性能不受影响。

大模子存在冗余性

连年来，多模态大谈话模子（MLLM）让机器东谈主具备了前所未有的贯通与现实才智。通过谈话领导和视觉信息的聚合，机器东谈主不错完成复杂任务，比如“捏起蓝色物体并放到桌上”。

一些前沿模子，如RT-2，以致不错泛化到新任务或新物体。关连词，要让这些强劲的模子走进本色场景，还有一齐穷苦需要处理——MLLM天然机灵，但也“贪馋”。

每次推理动辄调用数十亿参数，蹧跶高大的打算资源。

这关于镶嵌式机器东谈主平台来说是致命的——GPU内存不及、打算时候长、电板续航不够，径直让“通用机器东谈主”的盼望留步于实验室。

关连词本色上，在机器东谈主舍弃范畴，好多本色诈欺场景并莫得咱们设想的那么复杂。

论文作家通过不雅察发现，绝大无数任求本色上不错通过较小的模子就能完成，唯有在靠近少数复杂场景时，才需要调用齐全的大型多模态模子。

以Calvin数据集为例的实验扫尾便充分体现了这极少：当使用24层的OpenFlamingo当作基座模子时，比较于6层的模子，任务完成率仅提高了3.2%，但打算本钱却加多了整整4倍。

这无疑突显了现存的多模态大模子对大部分简便机器东谈主任务的冗余性。

这一发现激励了对现存模子遐想的深远想考：

为什么在大无数简便任务中还要使用高打算资源的复杂模子？

在很厚情况下，使用更大的模子不仅莫得带来彰着的性能进步，反而糜掷了珍摄的打算资源。

作家合计，何如左证任务的复杂性动态调养模子的限制，才能在不葬送性能的情况下，最大化打算扫尾，成为了进步机器东谈主智能的关节。

DeeR-VLA的遐想

DeeR-VLA框架的中枢在于其机动的动态推理机制，大约左证任务复杂度智能调换LLM的打算深度。

这意味着，DeeR-VLA大约在不同场景中激活纵情限制的模子。

为了达成这一谋略，DeeR-VLA引入了多出口架构，该架构能在多模态大谈话模子中按需遴选性激活不同的层级。

以下是其关节时刻组件：

多出口MLLM结构: DeeR-VLA通过在MLLM中引入多出口架构，将模子辨认为多个阶段，每个阶段皆不错输出中间扫尾。一朝任务复杂度达到某个出口的需求，模子就会提前住手打算，幸免激活更多层级。特征池化步调: 每个出口的中间特征通过特征池化时刻进行压缩，提真金不怕火出最中枢的信息。这种步调确保即便在早期退出，模子也能生成适用于后续动作展望的高质地特征。动作展望头遐想: 在每个出口后，模子通过轻量级的动作展望头，将特征革新为机器东谈主具体的现实动作（如机械臂的位置和夹爪的开合景况）。