解决VLA模型落地难，普通硬件也能跑！全透明全开源的高效VLA模型把推理成本砍掉76%

发布日期：2026-05-05 06:33 点击次数：155

A₁ VLA团队投稿

量子位 | 公众号 QbitAI

VLA模型的“动作头”正在拖垮机器人的反应速度？

A₁模型给出了教科书级的“瘦身”方案。

具身智能赛道正迎来关键破局点——Vision-Language-Action即“视觉-语言-动作模型”（简称VLA）。其已成为开放世界机器人操作的核心范式，但百亿级大模型backbone与迭代式动作头带来的计算成本高、实时性差，始终是落地在普通硬件上的致命瓶颈。

就在2026年4月，中山大学与MBZUAI联合推出A₁：一款完全开源透明、自适应高效的截断式视觉-语言-动作模型，不依赖私有数据与闭源组件，通过自适应推理实现低延迟、高成功率部署，实现推理成本大幅削减、实时控制低成本落地，彻底打破VLA模型“强性能=高开销”的困局。

A₁基于预训练视觉语言模型，提供动作生成所需功能性先验；核心采用预算感知自适应推理，监测中间层动作一致性实现提前退出，减少冗余计算。同时提出层间截断流匹配，以少量去噪迭代跨层热启动，联合加速主干网络与动作头。

实验表明，A₁在仿真与真实机器人平台上达到领先性能，推理时延最高降低72%，计算量最高减少76.6%。在RoboChallenge基准上，平均成功率29.00%，优于π₀、X-VLA等开源基线，兼顾效率与泛化能力。

VLA模型的真正瓶颈：不只是骨干大，动作头更卡

当前机器人VLA模型的结构很清晰：用视觉-语言模型（VLM）理解场景与指令，再用动作头输出连续机械控制信号。但这套流程藏着双重成本：主干VLM动辄数十亿参数，逐层推理耗时巨大；扩散/流匹配动作头需要10–20步迭代去噪，成为新的延时瓶颈。

即便有人优化了主干延迟，动作头依然拖慢全程，导致机器人反应慢、部署贵、难落地。

A₁的思路很干脆：算力只花在“能改变动作”的地方，多余计算全部砍掉。研究团队从三条关键观察出发，流匹配动作极少步即可稳定、连续动作冗余度高、中间层特征足够预测动作，基于这个核心思想，A₁实现了主干与动作头联合加速。

△ A₁模型整体架构

核心创新：自适应截断+层间流匹配，双管齐下提速

A₁以Molmo-7B为VLM主干，搭配流匹配或MLP两种动作头，真正拉开差距的，是它的自适应推理引擎。

1. 动作一致性提前退出：算到“够用”就停

训练时，A₁让VLM每一层都接入共享动作头，同步学习。推理时则逐层输出动作，一旦相邻层动作差异足够小，就直接终止前向传播，让模型自主判断推理深度，大幅砍掉冗余计算。

△ 训练与自适应推理流程

2. 层间截断流匹配：解决动作头越加速越慢的悖论

传统提前退出会让流匹配动作头重复去噪，越加速越慢。A₁提出层间截断流匹配，压缩去噪步数，并让上一层结果作为下一层热启动值，不再从随机噪声重新开始，把动作头迭代成本压到较低水平。

3. 多机器人泛化预训练：开源数据也能训出强模型

A₁采用两阶段训练，先用公开机器人数据集大规模预训练，再用自研真机轨迹做领域适配，配合数据增强与均衡采样，快速适配不同机械臂平台，不靠私有数据也能实现强泛化。

效果落地：仿真稳、真机强、开源第一

A₁的优势不只是理论高效，在仿真与真实机器人上都交出了亮眼成绩。

在仿真环境中，它在经典基准上保持极高成功率，同时推理速度大幅提升，实现做得更准，算得更快。

真正的考验在真实机器人。A₁在Franka、AgiBot、OpenArm、Dobot-Arm多款设备上完成抓取、摆放、整理、擦拭等任务，整体表现明显优于主流开源模型。尤其在长时段任务与小样本学习上，A₁动作更稳定、误操作更少。

△ 长时序任务执行对比图

在权威的RoboChallenge真机测评中，作为完全开源、全栈可复现的方案，A₁超越多款知名基线，在开抽屉、精准放置等关键任务上表现突出。

△ 自适应推理可视化

△ A₁成功部署于自研OpenArm双臂移动平台，支持高精度操作

△ AgiBot真机早停可视化

这才是未来：高性能≠高成本

A₁最有价值的地方，是它重新证明：机器人VLA模型不必堆参数、烧算力。

它用自适应截断机制实现三大突破：全链路同时加速主干与动作头、按任务复杂度动态分配算力、全栈开源透明可复现。这让机器人控制大模型终于可以走出昂贵机房，落到普通硬件上，大幅降低实时控制与多机型适配的门槛。

下一步：更通用、更精准、更流畅

A₁的出现，让具身智能从“实验室炫技”真正走向低成本、可落地、全透明的实用阶段。当VLA模型不再被算力绑架，机器人走进日常场景的脚步，无疑会大幅加快。在VLA模型越来越卷参数的今天，A₁提醒我们：好的机器人智能，不是算得更多，而是算得更准、更省、更有用。

目前A₁论文、代码、模型权重已全面开源，欢迎感兴趣的研究者复现体验。

打开新闻客户端提升3倍流畅度打开新闻客户端提升3倍流畅度打开新闻客户端提升3倍流畅度打开新闻客户端提升3倍流畅度

论文标题：

A₁: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

论文链接：

https://arxiv.org/abs/2604.05672

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉 了解详情

🌟 点亮星标 🌟

科技前沿进展每日见

解决VLA模型落地难，普通硬件也能跑！全透明全开源的高效VLA模型把推理成本砍掉76%

解决VLA模型落地难，普通硬件也能跑！全透明全开源的高效VL

震裕科技：2025年年度归属于上市公司股东的净利润同比增长1

10天破30亿，2025年贺岁档已超去年总票房

邢金博：暂时戴上了小手环 我的第4届也是最后一届全运会惊心动

光大银行公布2025年度中期利润分配方案 拟派发现金股息总额

帕杜：相信萨拉赫会强势反弹，战曼联可以让他重新找回状态

邢金博：暂时戴上了小手环我的第4届也是最后一届全运会惊心动

光大银行公布2025年度中期利润分配方案拟派发现金股息总额