维其互联 > 信息聚合 > Hugging Face 公布 4.5 亿参数开源机器人模型 SmolVLA,消费级硬件设备即可运行

Hugging Face 公布 4.5 亿参数开源机器人模型 SmolVLA,消费级硬件设备即可运行

2025-06-09 17:07:44来源: IT之家

IT之家 6 月 9 日消息,Hugging Face 现已公布 4.5 亿参数开源机器人模型 SmolVLA,该模型主打高普适性,可在 MacBook Pro 等的消费级硬件设备上运行,旨在帮助开发者降低入门成本。当下,业界机器人模型通常采用“视觉-语言-行动”(Vision-Language-Action,VLA)设计,此类模型尝试在单一架构中整合感知能力、语言理解与行动决策,从而让机器人实现自主执行复杂任务。不过相应模型训练成本极高,目前大多数模型仍为闭源项目,训练过程中依赖昂贵硬件、大量工程资源和大规模私有数据集。为此,Hugging Face 推出 SmolVLA 这一轻量级开源模型,使用公开数据集进行训练,并可在消费级硬件设备上运行,旨在降低爱好者入门成本,推动通用机器人智能体的研究进展。据介绍,SmolVLA 在模型架构上结合 Transformer 结构与 flow-matching 解码器,并采用了四项关键优化技术:一是跳过视觉模型中一半层数,以提升推理速度并减小模型体积;二是交替融合自注意力与交叉注意力模块,提高多模态信息整合效率;三是减少视觉 Token 数量以提升处理效率;四是采用更轻量的 SmolVLM2 作为视觉编码器,从而进一步降低硬件要求。▲ 图源 Hugging Face(下同)而在训练策略方面,SmolVLA 首先通过通用操作数据进行预训练,再针对特定任务进行微调,以提升适应能力。因此虽然 Sm

关注公众号
标签: 硬件 消费