具身智能产业有史以来第一场全球性高峰会 4 月 28 日在硅谷落幕! 这场大会星光熠熠——2015 年图灵奖得主、公钥密码学奠基人 Martin Hellman 做开场主题演讲,主题是「安全、智慧与物理世界的交会」。 英伟达GEAR Lab资深研究科学家、亚马逊前沿AI研究院科学家、斯坦福大学副教授同台对谈,上千名来自全球的AI学者、开发者和投资人到场。
据《新智元》,在这场名为GEIS(全球具身智能创新大会)高峰会上,一口气发表三款核心产品,涵盖世界模型、灵巧手和人形机器人。 如此豪华的阵容,硬核的发布,倒像是硅谷本土巨头的画风。 谁能想到,GEIS 的发起方竟是一家成立刚满两年的中国公司——魔法原子(MagicLab)。
在硅谷办会、请图灵奖得主站台,具身智慧赛道从未有过这种先例。 过去两年,人形机器人的关节扭力越来越大,自由度越来越多,翻跟头的姿势越来越花。 但一个尴尬的事实始终没变,绝大多数机器人离开预设好的 demo 场景,就「不会工作」了。
问题出在哪? 目前主流的 VLA(视觉-语言-动作)大模型已经能让机器人听懂指令、看见场景,但一旦进入真实环境,光照变了、桌面材质换了、物体摆放位置偏了几厘米,泛化能力就开始崩。
说到底,机器人缺少的不是更强的手臂腿,而是一个真正能理解物理世界的「大脑」。 这才是核心瓶颈。 这正是魔法原子此次发表的世界模式 Magic-Mix 要解的题目。
世界模式 Magic-Mix 自己教自己
Magic-Mix 由两个核心引擎协同运作。 第一个叫 Magic-Mix WAM,负责实体环境理解、空间推演和动作决策。 通俗地说,它让机器人在动手之前,先在「脑子里」模拟一遍接下来会发生什么。
抓一个杯子,手指接触杯壁的瞬间会产生多大的力量? 杯子的重心在哪? 如果桌面是湿的,摩擦系数怎么变? 这些物理常识层面的推演,是 VLA 模型不擅长的,而世界模型刚好补上了这块。
第二个引擎叫 Magic-Mix Creator,是离线数据生成器。 它的工作是大批量合成训练数据样本,持续喂给 WAM 做训练和迭代。
以上两个引擎组合在一起,形成了一个闭环,海量数据产生→模型训练→训练结果回馈→数据再生成。
换言之,Magic-Mix 是一个能「自我进化」的动态系统。 机器人在真实场景中每执行一次任务,产生的资料都会回流到这个闭环里,驱动模型持续演化。
在训练机制上,Magic-Mix 有一个很硬派的设计,视频动作双专家协同训练。 一个专家负责「看」,从视讯资料中学习物理世界的运作规律; 另一个专家负责「动」,把观察到的规律转化为具体的动作策略。
两个专家共享底层讯息,但梯度更新彼此隔离,避免互相干扰。 这套机制也引入了目标影像约束和失败影像特征输入。 系统不仅学习「成功长什么样子」,也学习「失败长什么样子」,从而在首席执行官线程任务时减少误差累积。
而支撑这套系统运作的底层基础,就是数据。 这恰恰是目前具身智慧最大的瓶颈。 真机数据采集成本高、周期长、场景覆盖有限,这是全产业面临的共通性难题。
魔法原子给的解法是「两条腿走路」——一方面,大力投入真机资料搜集。 日均采集约16,000条,VLM层模型参数量达3B,已累积约36万条真机资料;
另一方面,透过 Magic-Mix Creator 大批量合成训练数据,实现万倍级别的数据体积扩展。 其构建的Robot Data Pool,高品质数据集规模已超100万小时。 这套「真机撷取+合成扩充」的数据飞轮,大幅降低了对纯真机资料的依赖,也为模型训练提供了持续稳定的弹药补给。
从产业视角来看,谁能率先跑通数据闭环,谁就能在具身智慧的下半场占据先机。
一个可以想象的场景是,如果这套世界模型率先在家庭环境中跑通,机器人就能在厨房里根据台面上食材的摆放位置自主规划切菜、装盘的动作序列,而不需要人类预先编排每一步。
从水龙头出水的角度到碗碟叠放的高度,这些细碎的物理变量都在世界模型的推演范围内。
家庭这种高度非结构化的场景都能应对,工业产线上相对标准化的任务就更不在话下。
这就是世界模型真正的战略意义:它是为所有场景提供底层能力支撑。 谁先把世界模型跑通,谁就拿到了具身智慧规模化落地的「万能钥匙」。
灵巧手 H01 比人手还敏感
有了「大脑」的决策能力,还需要足够精密的执行终端。 会上,同期发布的新一代灵巧手 MagicHand H01,有几个参数值得单独拎出来看。 20个自由度,其中15个为主动自由度,整机重量仅1公斤,额定负载却达10公斤。
机器人的手越重,整机负载的挤压就越大,留给实际作业的有效载荷就越少。
H01 把自重压到了 1 公斤,几乎不吃整机的负载预算。
44个高分辨率三维触觉传感器覆盖手掌和指尖,力感知分辨率达到0.05牛顿。
要知道,人类指尖的力感知阈值大约在 0.05 到 0.1 牛顿之间。 H01 在力感知精度上,已经摸到了人手的下限。 但H01最有辨识度的能力是未触先觉。 产品具备 0 到 40mm 的动态感知范围,接近觉分辨率达到 0.5 毫米,能够在真正接触物体之前就完成动作预判。
配合 5mm 级的硬件闭回路反应系统,机器人的手在离物体还有几公分的时候就已经开始调整姿态和力道了。
这在护理、复健训练、家庭服务这类场景中尤其关键。 机器人跟人近距离接触时,靠碰撞检测做事后补救太晚了,H01 能在接触发生前就完成力度和轨迹的调整。
1 秒内完成完整开合动作,反应速度足以应付工业产线节拍。 同时支持适配市面上多款人形机器人本体,不绑定自家平台。 这个开放策略在灵巧手赛道并不常见。
更具实用价值的是,H01 被设计为通用模块,可适应市面上多款人形机器人本体。 这是一个明确的生态化讯号:魔法原子不只想给自家机器人配上灵巧手,而是想让 H01 成为业界的标准件。
MagicBot X1 24 小时不下班
三款产品中的最后一块拼图是旗舰人形机器人 MagicBot X1。
上一代Gen1,身高174cm、42个自由度、双臂搬运负重20公斤,是魔法原子在春晚和工厂产线上验证的主力机型。 而这次,X1 在 Gen1 基础上做了几个关键升级。
第一是运动能力大幅提升。 X1 身高拉到180cm,体重70kg,全身31个主动自由度(Gen1是42个总自由度,但主动自由度数未公开披露),极限关节扭力从 Gen1 的体系升级到 450N·m。
整机运动速度综合提升30%以上,运动范围提升超过50%。 更高的扭力和更大的运动范围组合起来,意味着 X1 能在更复杂的空间姿态下完成作业。
举个例子,工业场景中经常需要机器人弯腰探进设备内部做检测或取件,这类动作对躯干和肩关节的活动范围要求很高,Gen1 在某些极限角度下会受限。
X1 提升 50% 的运动范围,直接拓宽了它在弹性生产场景中的适用面。
第二是续航问题的根本解法。 Gen1 综合续航力最高 5 小时,对于需要两班倒甚至三班倒的工业场景来说不够用。 X1 没有选择堆叠更大的电池,而是做了双电池热插拔系统,支持不断电更换电池,直接实现 7× 24 小时连续作业。
工厂不需要等机器人下班充电,运维人员换个电池就行。 这个设计思路比单纯拼电池容量更务实。
第三是产品化程度。 X1 一共有两个 SKU:开箱即用「标准版」,以及面向大学和开发者的「科研版」,支持底层二次开发和外形客制化。
Gen1 在产品化层面更偏向客制化项目交付,X1 从一开始就是冲着标准化量产去的。 到这里,技术拼图闭环了。 Magic-Mix 世界模型是「大脑」,H01 灵巧手是「双手」,X1 人形机器人是「身体」。 从感知、决策到执行,一口气补齐。













