博亚体育机器东谈主自追溯的编削, 让星海图横扫了7大具身评测基准

博亚体育机器东谈主自追溯的编削，让星海图横扫了7大具身评测基准

编著｜Panda

上个月，Physical Intelligence 发布了新一代基础模子 π0.7，激发了一轮对具身智能泛化智力的究诘欢腾。而就在今天，北京的星海图（Galaxea）又为寰球带来了 G0.5。

视频相连：https://mp.weixin.qq.com/s/nTJCsLfKtMglgicr_oqKbA

在横跨仿真、真机、零样本、长程任务的 7 个颓靡基准上，G0.5 全面超越 π0.5，并在其中多项上得到 SOTA。

这不是靠堆数据堆出来的收成。G0.5 的底层逻辑是对刻下 VLA 模子主流架构作念出了一个根人道的判断，并用实验数据确认了这个判断是对的。

7 大基准，全面领跑

G0.5 的收故意事了 VLA 领域最主流的评测维度，数据如下：

这 7 项评测范围往常，从不同角度检测了一个通用 VLA 模子确凿需要具备的智力：开箱即用的零样本转移、跨试验微调服从、仿真环境下的指示奴婢以及现实寰球中的长程复杂操作。

要在这些维度上同期保持早先，单点性能优化是作念不到的。

零样本转移智力（DROID）

DROID 是面前范畴最大的确凿机器东谈主操作数据集之一，包含来自多个实验室、多种场景的 Franka 机械臂演示数据。

G0.5 在全都莫得针对该平台进行任何微调的情况下，径直部署于 10 项桌面操作任务，平均告捷率达到了 82.5%，卓绝 π0.5-DROID（57.5%）整整 25 个百分点。

尤其在需要多面目章程扩充的任务「将积木放入抽屉并关闭抽屉」上，MolmoAct2 全都失败，而 G0.5 卓绝半数磨练告捷完成。零样本智力径直反应的是预西宾阶段千里淀下来的可转移操作先验，而不是针对某一平台的过拟合。

确凿机器东谈主微调（R1 Lite / R1 Pro）

在星海图自研平台上，G0.5 和 π0.5、GR00T-N1.7 使用疏浚的西宾数据、疏浚的计较预算（各 16 张 H20 GPU），永别完成折叠毛巾、折叠纸箱、铅笔盒整理和箱子搬运堆叠等 6 项任务的评测。这些任务都不是「抓取放手」级别的简便操作，比如折叠毛巾要求机器东谈主从篮子里取出一条变形毛巾，通过双臂相助将其张开、铺平、按预定时局折好，再放入指定区域，任何一步的抓合手力度或拉伸张力出现偏差，都会导致通盘经过为山止篑。

同等条目下，G0.5 的平均告捷率 76.7%，比 π0.5 的 53.0% 进步 23 个百分点，比 GR00T-N1.7 的 24.4% 进步一倍过剩。

仿真基准（LIBERO / RoboTwin 2.0 / SimplerEnv-Bridge）

三项仿真测试心事了单臂指示奴婢（LIBERO）、双臂相助操作（RoboTwin 2.0）和跨数据集转移（SimplerEnv-Bridge）三类场景。

G0.5 在 LIBERO 上以 98.9% 的收成位居刻下已公开结果的首位，尤其在 LIBERO-Long（长范例列任务子集）上以 98.6% 的收成超越统统对比模子。这恰正是对长程推贤人力最径直的磨真金不怕火。

傍边滑动检察

RoboTwin 2.0 包含卓绝 50 个双臂任务，G0.5 以 93.3% 的均值刷新了该基准的最高记载。

G0.5 在 SimplerEnv-Bridge 上也达到 87.3% 的平均收成，卓绝其它统统模子。

长程挪动操作（BEHAVIOR-1K）

这是 7 项评测里门槛最高的一项，亦然最能确认问题的一项。

BEHAVIOR-1K 挑战赛由 50 个完满家庭场景任务组成，每段演示平均时长 6.6 分钟，最长达 14 分钟，机器东谈主需要阻抑 R1 Pro 在房间圭臬的空间里导航、取物、使用电器、整理物品，其中任何一个中间面目的失败都会影响后续统统程度。

G0.5 使用单个 checkpoint、仅经过 1 个后西宾 epoch，Task Success Score 便达到 0.2904，不仅超越了 π0.5 西宾 4 个 epoch 的收成（0.2626），也超越了使用 4 个 checkpoint 集成的赛事冠军（0.2605）。西宾增多至 4 个 epoch 时，G0.5 的得分普及至 0.3136。在 50 个任务中，G0.5 在 29 个上早先 π0.5，π0.5 只在 15 个上早先 G0.5。

1 个 epoch 赢过 4 个 epoch，单模子赢过集成决策。这组数字径直确认互异来自预西宾底座的质地，而非微调战略。

架构编削，而非数据堆叠

G0.5 能得到这些收成，根源在于星海图对刻下 VLA 主流架构作念出的一个判断：问题不在于数据量，而在于 VLM 被放错了位置。

往时几年，VLA 领域的主流作念法是「VLM 动作编码器」：让一个预西宾好的视觉-讲话模子矜重交融图像和讲话，然后把它的输出动作条目信号，传递给另一个颓靡西宾的「动作大师」（频繁是扩散模子或流匹配汇集）来生成最终阻抑指示。

这种单干有彰着的服从上风。但也有代价：VLM 在预西宾中积聚的想维链（CoT）、荆棘体裁习、指示诱骗等中枢智力，只可经过这谈压缩瓶颈曲折影响最终动作，即 VLM 成了一个条目编码器，而非确凿的决策者。

G0.5 的聘用是透顶去掉这谈瓶颈，让消亡套模子权重、在消亡条自追溯序列里，同期完成推理和动作生成。

图像、讲话、推理脚迹、物理动作，在 G0.5 里一都被调遣为分享词汇表中的 token，经过消亡个 Transformer 解码器、消亡次前向传播生成。这么一来，推理就成了动作的组成部分。

为了让这套自追溯道路在基础模子范畴上保持实用，G0.5 引入了三项枢纽测度打算。

跨试验动作编解码器（ActionCodec）：将预西宾阶段涵盖的 18 种机器东谈主试验数据和洽映射到 27 维动作空间，每类通顺部件（左臂、右臂、躯干）对应结构化的动作 token。更紧要的是，推理时只生成刻下需要挪动的部件的 token，博亚体育静止要津径直跳过。这种稀薄展望机制，让自追溯 VLA 在高频阻抑场景下确凿变得可行。

预西宾数据中包含的试验。左侧饼图总结了预西宾数据蚁集不同试验类别的相对比例。

原生想维链（Native CoT）：模子在生成动作之前，先在消亡条序列里输出四类推理 token：原子子任务文本、规划对象范畴框、二维结尾扩充器轨迹、动作指示。这些推理 token 与动作 token 受消亡个交叉熵归天函数管理。实验浮现，在「面包放入空气炸锅」任务上开启原生 CoT 后，告捷率普及了 30 个百分点；在「培根煎制」上普及 35 个百分点 —— 这两个任务都是模子从未见过的散布外场景。

G0.5 在 R1 Lite 上零样本扩充「把毛巾放进洗手池」：在消亡自追溯流中，模子先生成想考（子任务、规划物体框），再输挪动作 token，并从每一帧不雅测闭环重规划。

视觉操心模块：在 Vision Transformer 的每四层中插入瓦解的时空提防力模块，将多秒历史帧的视觉信息轻量级地融入刻下决策。西宾时稀奇加入 30% 的历史帧就怕丢弃机制，把稳过拟合的同期，让模子学会在历史信息缺失机依然适当运行。这一测度打算对 BEHAVIOR-1K 里挪动箱子到储物间、整理卧室等需要反复穿越空间的长程任务恶果尤为彰着。

不徇私情：用当然讲话径直阻抑机器东谈主行径

和洽自追溯架构还带来了另一个智力：通过改写当然讲话指示，径直改变机器东谈主的动作作风和扩充细节，无需再行西宾。这是此前在 VLA 领域基本莫得被系统考据过的新智力！

当今，这套智力在 G0.5 上得到了两个层面的系统性考据。

第一层：想维链对动作的增益随任务长度放大。

星海图团队在单个预西宾 checkpoint 上，通过切换推理模式（开启/关闭 CoT）和动作解码景观（自追溯 AR/流匹配 FM），作念了一组严格阻抑的消融实验。

结果浮现，在单阶段的 Pick-and-Place 任务上，开启 CoT 对自追溯模式的告捷率普及唯有 3.1 个百分点。但跟着任务阶段增多，这个差距急剧拉大：在五阶段的「面包放入空气炸锅」任务（入场→开门→抓面包→放入→关门）上，开启 CoT 带来 30 个百分点的普及；在相通是五阶段的「培根煎制」任务上，普及达到 35 个百分点。

这确认想维链的价值不在于匡助模子「想了了简便的事」，而在于通过逐阶段的子任务瓦解与规划定位，把稳长程任务里的造作积聚和气象漂移。

第二层：指示改写不错径直调控动作粒度。

在上述散布外任务上，星海图进一步把每个阶段的节略指示（举例「灵通门」）改写为带有丰富副词和空间修饰语的版块（「轻轻地把门全都灵通」）。这种改写并莫得引入任何新的西宾数据，仅仅让指示佩戴了更细粒度的扩充意图。

结果：空气炸锅任务的告捷率在 AR+CoT 基础上再普及 15 个百分点，培根任务再普及 10 个百分点，两项从未出当今预西宾数据中的复杂任务完满告捷率均冲突 50%。

为什么这件事唯有自追溯架构能作念到？

对比数据给出了恢复。相通开启 CoT、相通分享预西宾权重，仅把动作解码从自追溯切换为流匹配（FM）模式：CoT 对 FM 在空气炸锅任务上的普及唯有 10 个百分点，培根任务上相通是 10 个百分点；均不及 AR 模式下普及幅度的三分之一。

开运体育中国官网入口

星海图团队对 CoT 输出的准确率进行了东谈主工评分，AR 和 FM 模式下的推理质地周边（PP Bench 约 90%，空气炸锅约 85%，培根约 80%）。因此这个差距不来自推理自身的质地，而来自动作的解码景观：自追溯 token 与推理 token 共处消亡条序列，动作生成时不错径直回看 CoT 内容；而流匹配大师在产活泼作前，如故把推理轨迹压缩进了一个紧凑的条目向量，细节丢失了。

这亦然 G0.5 的中枢目的得到实验支撑的最径直笔据：推理和动作必须分享消亡个荆棘文，智力让「想考」确凿驱动「行径」。

不徇私情

G0.5 的 PP Bench 结果还揭示了另一个值得存眷的维度：视觉荆棘文对讲话奴婢的影响。

在 50 小时后西宾诞生下，模范指示（仅有翰墨称呼）的讲话奴婢率为 84.4%，任务告捷率为 75.0%。星海图团队进一步向模子输入了规划物体和容器的剪辑视觉图像动作稀奇荆棘文，讲话奴婢率飞速跃升至 98.4%，任务告捷率升至 84.4%。

这确认关于语义歧义的长尾物体（举例用中语标注「马」字的中国象棋棋子），视觉荆棘文提供的细粒度外不雅思路不详弥补纯讲话描述的不及，而 G0.5 的多图像接口不错当然地经受并诈欺这类补充信息。

操控机器东谈主行径的景观正在向操控大讲话模子的景观拘谨。用户无需再行聚积数据或发起新一轮微调，仅靠当然讲话的措辞聘用，就能养息机器东谈主在生疏场景下的行径粒度与扩充作风，真像是「不徇私情」。

全栈闭环下的中国编削

G0.5 是星海图「整机+智能」全栈道路的居品。这家开垦于 2023 年 9 月、累计融资近 50 亿东谈主民币的公司，自研的 R1 Pro 和 R1 Lite 轮式双臂机器东谈主平台已职业包括斯坦福、Physical Intelligence、华为在内的各人近百家顶尖具身智能机构，并被用于 π0.5 真机数据的聚积。

G0.5 基于 Qwen3.5 2B 视觉-讲话模子运调遣，预西宾数据涵盖 18 种机器东谈主试验，与约 1 亿条视觉-讲话问答数据衔尾西宾（其中含 5000 万条具身场景 VQA），通盘预西宾过程约 12 万步。

这种全栈闭环的意旨在于：星海图的试验数据助力了 G0.5 的预西宾，G0.5 的泛化智力又反过来镌汰了试验适配的本钱。自追溯架构则不错让这个闭环里积聚的推贤人力传导到机器东谈主的物理行径里。

值得一提的是，架构道路上的判断已不啻 G0.5 一例。星海图团队前段技术发布的 Fast-WAM 论文（arXiv:2603.16666），辞寰球动作模子（WAM）场所给出了相通的底层判断：明确的明天遐想对动作性能的孝顺远小于预西宾阶段的视频衔尾建摹自身，即确凿紧要的是西宾时学到的寰球表征，而不是推理时造出的展望帧。

两篇责任指向的是消亡个场所：在具身智能的底层建模上，中国团队正在作念原创性的架构判断，而不仅仅在既有框架上堆参数、堆数据。

虽然博亚体育，具身智能还有很长的路要走，但架构的聘用如故在决定谁走得更快。

博亚体育 机器东谈主自追溯的编削, 让星海图横扫了7大具身评测基准

博亚体育机器东谈主自追溯的编削, 让星海图横扫了7大具身评测基准