技术文档在开源社区发布当天,全球开发者的目光从代码中预见了一个全新的机器人操控时代:只需要约80条数据就能教会机器人一项新技能。
“具身智能要想大规模应用,依赖高效的具身基座模型,这直接决定了是否可用以及能否用得起。”蚂蚁灵波科技CEO朱兴在LingBot-VLA开源时这样表示。
近日,蚂蚁集团旗下的灵波科技宣布全面开源具身大模型LingBot-VLA及配套空间感知模型LingBot-Depth。
这个“通用大脑”基于超过2万小时大规模真机数据预训练而成,涵盖9种主流双臂机器人构型,正在推动机器人技术从“单机专用”走向“一脑多机” 的工程化落地。
01 技术壁垒
具身智能模型长期面临“专用性强、通用性差”的困境。不同机器人的硬件结构、执行任务和环境差异巨大,导致模型适配成本极高。
蚂蚁灵波发布的LingBot-VLA突破了这一瓶颈,实现了跨本体、跨任务的泛化能力。
它让不同构型的机器人能够共享同一个智能基座,减少重复训练。研发团队在AgiBot G1、AgileX等9种主流双臂机器人上采集了大量数据。
02 核心突破
技术核心在于其训练效率和感知能力的双重突破。该模型在8卡GPU配置下实现了每秒261个样本的吞吐量,训练效率达到主流框架的1.5到2.8倍。
与高精度空间感知模型LingBot-Depth配合,LingBot-VLA能获得更高质量的深度信息表征。
LingBot-Depth模型在深度精度与像素覆盖率两项核心指标上均超越业界顶级工业级深度相机。
03 性能验证
在上海交通大学开源的具身评测基准GM-100测试中,LingBot-VLA表现突出。该基准包含100项真实操作任务,是行业内公认的机器人能力测试标准。
在三个不同的真实机器人平台上,LingBot-VLA的跨本体泛化平均成功率达到17.3% ,刷新了真机评测的成功率纪录。
引入深度信息后,模型的空间感知能力明显增强,从15.7%进一步提升到17.3%。
04 应用前景
LingBot-VLA的开源和验证进展迅速,已与星海图、松灵、乐聚等厂商完成适配。
它能用高质量深度信息表征增强模型的空间感知能力,让机器人“看得更清楚、做的更明白”。这种能力对工业自动化、仓储物流和家庭服务等场景尤其重要。
蚂蚁构建的InclusionAI技术体系与开源生态涵盖了从基础模型到具身智能的完整链条。
05 开源生态
此次开源不仅提供了模型权重,还同步开放了全套代码库。包含数据处理、高效微调及自动化评估在内的完整工具链,大幅压缩了模型训练周期。
这一举措降低了商业化落地的算力与时间门槛,让开发者能够以更低的成本快速适配自有场景。
在数据采集阶段,LingBot-VLA使用了星海图、松灵的硬件平台,并得到多家机器人创新中心的支持。
与LingBot-VLA同时开源的LingBot-Depth空间感知模型,能将受噪声影响的不完整深度传感器数据转换为高质量的三维测量结果,极大提升了环境的深度感知和三维理解能力。
机器人正从“能动”向“能用”转变。目前,蚂蚁灵波科技的开源代码已在GitHub上线,全球开发者可以自由访问、使用和改进这一机器人“通用大脑”。
随着LingBot-VLA的开源普及,机器人工程师正在重新思考行业未来:当“一脑多机”成为可能,具身智能的大规模应用会比预期来得更早一些。