IT之家 6 月 9 日消息,Hugging Face 现已公布 4.5 亿参数开源机器人模型 SmolVLA,该模型主打高普适性,可在 MacBook Pro 等的消费级硬件设备上运行,旨在帮助开发者降低入门成本。当下,业界机器人模型通常采用“视觉-语言-行动”(Vision-Language-Action,VLA)设计,此类模型尝试在单一架构中整合感知能力、语言理解与行动决策,从而让机器人实现自主执行复杂任务。不过相应模型训练成本极高,目前大多数模型仍为闭源项目,训练过程中依赖昂贵硬件、大量工程资源和大规模私有数据集。为此,Hugging Face 推出 SmolVLA 这一轻量级开源模型,使用公开数据集进行训练,并可在消费级硬件设备上运行,旨在降低爱好者入门成本,推动通用机器人智能体的研究进展。据介绍,SmolVLA 在模型架构上结合 Transformer 结构与 flow-matching 解码器,并采用了四项关键优化技术:一是跳过视觉模型中一半层数,以提升推理速度并减小模型体积;二是交替融合自注意力与交叉注意力模块,提高多模态信息整合效率;三是减少视觉 Token 数量以提升处理效率;四是采用更轻量的 SmolVLM2 作为视觉编码器,从而进一步降低硬件要求。▲ 图源 Hugging Face(下同)而在训练策略方面,SmolVLA 首先通过通用操作数据进行预训练,再针对特定任务进行微调,以提升适应能力。因此虽然 Sm
Hugging Face 公布 4.5 亿参数开源机器人模型 SmolVLA,消费级硬件设备即可运行
2025-06-09 17:07:44来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 华为何刚回应“为什么不等系统生态完善再推出”:已在鸿蒙 5.1 / 5.0 与合作伙伴做到消费者日用基本满意2025-06-15 16:27:35
- 上海消费品以旧换新订单量超 1100 万笔,将继续按全品类执行2025-06-15 13:26:01
- “情绪快充式消费”时代,品牌要从卖产品到卖情绪解药2025-06-13 18:35:18
- 市场监管总局:将持续加强网络销售消费品召回常态化监管2025-06-13 15:56:06
- 慧荣总经理苟嘉章:消费级 PCIe 6.0 SSD 本十年无望,PC OEM 兴趣不足2025-06-13 18:04:34
- 惠普推出全球首款 Google Beam 硬件 Dimension:24999 美元,约合 18 万元人民币2025-06-11 21:51:33
- 华为李小龙:这个长焦模组是 Pura 80 Ultra 上最大的硬件创新,唯一的缺点就是成本非常非常高2025-06-11 23:38:14
- Snap 宣布明年面向消费者推出 AR 智能眼镜 Specs:搭载 AI 助手,支持实时翻译2025-06-11 08:55:00
- Linux 6.16 首个 RC 候选版发布:提升电源管理效率、扩展硬件支持、优化 EXT4 文件系统2025-06-10 09:10:18
- Liberux 推出 Linux 智能手机 NEXX:32GB RAM,三个硬件开关2025-06-09 16:00:38
- 1小米 REDMI K80 至尊版手机现身 Geekbench,搭载天玑 9400+ 处理器
- 2英伟达旗舰显卡价格松动,RTX 5090 降价趋势初显
- 3小米 REDMI Turbo 4 Pro 手机澎湃 OS 2.0.206.0 版本部分场景屏幕失灵问题已优化
- 4广汽传祺联合华为在广州白云机场首次实现“出发层泊车代驾 VPD”技术试点
- 51 至 5 月全国铁路发送旅客 18.6 亿人次、同比增长 7.3%,创历史同期新高
- 6理想 i6 纯电 SUV 新谍照曝光,预计 9 月发布
- 7微信鸿蒙版 App 安装量破 600 万,平均速度约 10 万 / 天
- 81 至 5 月全国铁路完成固定资产投资 2421 亿元、同比增长 5.9%,多个项目取得重要进展
- 9百度启动最大规模顶尖 AI 人才招聘,岗位招聘同比扩大 60%
- 10小米平板 7S Pro 预热:搭载 10610mAh 大电池、120W 快充、PC 级软件