与 3D 物理环境交互、稳当不同机器东谈主情景并扩充复杂任务的通用操作战略Bsports网页版登录,一直是机器东谈主畛域的持久追求。
现存的通用操作模子局限于 2D 输入,短少鲁棒的 3D 感知才智,在面对单视角视差、光照变化和环境不一致等视觉外不雅变化时发达较差,截止了其在实践天下中的通用性。
而东谈主类具有通用且结构化的空间知道才智,不祥在不同的场景中密致准确的操作物体。因此,面前畛域的一个要害问题是若何灵验地为 VLA 模子赋予通用的 3D 物理天下空间无间才智?
来自上海 AI Lab、TeleAI、上科大等机构的参议员提 SpatialVLA ——
百万真机数据预老师的空间具身通用操作模子,全面磋商了空间表征在具身通用操作模子中的后劲,在 zero-shot 泛化适度、场景高效微调、空间无间等多项评估中获取了起先进的性能。
通用操作战略濒临的挑战
近期视觉 - 谈话 - 动作模子的进展为构建此类通用战略提供了有前程的范式,相称是通过在万般化机器东谈主数据上老师视觉 - 谈话模子。关联的最新参议包括 OpenVLA、RDT、π 0 等。可是现存的 VLA 模子大多局限于 2D 输入,短少肃穆的 3D 感知才智,且在面对单视角视差差距、光照变化和环境不一致等视觉外不雅变化时发达较差,截止了其在实践天下中的可靠性。东谈主类本能地形成结构化的空间知道模子,任意地在直不雅且个性化的职责空间中组织物体进行操作。
因此,面前畛域的一个要害问题是若何灵验地为 VLA 模子赋予通用的 3D 物理天下空间无间才智?
可是,斥地具有 3D 空间智能的通用机器东谈主战略濒临两个要害挑战:
最初,由于相机传感器和装配位置(举例腕部装配与第三方视角)不同,机器东谈主在各个情景下的不雅察数据短少 3D 对都,形成了 3D 不雅察空间未团结校准的。
其次,机器东谈主发达出万般的动作特色,源自解放度、明白适度器、职责空间竖立和任务复杂性的各别,使得学习通用空间动作变得复杂。
空间具身通用操作模子
为应酬以上挑战,本文建议了一个通用机器东谈主战略 SpatialVLA,通过探索对都的空间示意,将 VLA 模子赋予 3D 空间智能。给定图像不雅察和任务指示,模子行使 Ego3D 位置编码惩办图像,并自转头地揣度空间动作 token,随后解码为连气儿动作 At 进行机器东谈主适度 :
Ego3D Position Encoding: SpatialVLA 通过 Ego3D 位置编码感知 3D 天下,将 3D 空间高下文与语义特征会通,摈弃了对特定机器东谈主相机校准的需求,具有平庸的适用性。
Adaptive Spatial Action Grids:关于机器东谈主动作,SpatialVLA 接受自稳当动作网格统一动作空间,将连气儿动作翻脸化为基于机器东谈主任务数据的自稳当网格,使得不同机器东谈主之间的动作与物理天下的 3D 结构对都。
Spatial Embedding Adaption: 在后老师中,空间动作网格通过自稳当网格重新翻脸化,展现了在新机器东谈主环境中稳当的超卓才智,提供了一种机动且灵验的机器东谈主特定后期老师武艺。
具体来说,关于给定一个图像不雅察 和任务指示 L,模子通过 Ego3D 位置编码惩办图像,并自转头地揣度空间动作 token,随后将这些 token 解码为连气儿动作 At 用于机器东谈主适度。
该模子包含三个要害组件:(1)SigLIP 视觉编码器索要 2D 语义特征,随后通过 Ego3D 位置编码将其与 3D 空间高下文相会通;(2)连气儿的 7D 动作 Δ T, Δ R, G 通过查询自稳当动作网格更始为 3 个空间动作 token,并自转头地揣度并解码以用于机器东谈主适度;(3)在后期老师中,动作网格和空间镶嵌把柄新的高斯诀别进行疏通,以便灵验地挪动到全新的机器东谈主平台。
团队发现,所建议的 SpatialVLA 模子以通用且与机器东谈主无关的姿色桥接了不雅察输入和动作输出,探索渊博的 3D 空间感知示意,从而增强了 VLA 模子的鲁棒性与通用性。
实验考据
团队在 7 种不同的机器东谈主学习场景中评估 SpatialVLA 的才智,包括 24 个信得过机器东谈主任务和 3 个仿真环境 Simpler Env Google Robot、Simpler Env WidowX、LIBERO。
要点老成模子的三个要害才智:zero-shot 泛化适度、新场景高效微长入空间无间才智。同期,团队还进行了防卫的消融参议,考据了设想有筹算。模子在多项评估中获取了起先进的性能。
1. zero-shot 泛化适度
SimplerEnv Benchmark SOTA 性能:包含 WidowX 和 Google 机器东谈主竖立,提供万般的操作场景,并涵盖不同的光照、神色、纹理和机器东谈主录像头位姿。团队将模子与最新的通用操作战略进行比较,包括 RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA 和 RoboVLM 等。
SpatialVLA 在 zero-shot 和微调 setting 中均表展示了更强的泛化才智和鲁棒性,尤其在具有外不雅万般的机器东谈主操作任务和环境条目下。
关于 WidowX 竖立,SpatialVLA 越过了 RoboVLM,获取了 34.4% 和 42.7% 的举座告捷率。在 BridgeV2 数据集上微调后,在"将茄子放入黄色篮子"任务中达到了 100% 的告捷率,泄露了模子出色的零样本泛化操作才智。
△Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.
△Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.
WidowX 机器东谈主平台开箱即用:团队还在信得过的 WidowX 机器东谈主平台上进行实验,涵盖谈话绑定、语义无间和明白插手等任务。总体而言,SpatiaVLA 在未见过的场景、物体、谈话绑定和动态动作中发达出了较高的平均告捷率,不祥把柄教导中的神色描摹准确地扩充当务,越过了 OpenVLA 和其他通用战略展示了渊博的泛化才智操作和指示奴隶才智。
△Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.
2. 新场景高效微调
Franka 高效微调,LIBERO Benchmark SOTA 性能:团队在 13 个 Franka 机械臂平台上 从 1)拾取、甩掉、推拉和关闭基本任务;2)指示奴隶;3)混杂多任务三个角度来考据模子的操作性能,与主流战略(包括 Diffusion Policy、Octo 和 OpenVLA)进行比较。
评估恶果展示了其算作通用机器东谈主适度战略的多功能性,在多种任务中发达出色,并可灵验算作新机器东谈主微调的启动化。同期 SpatialVLA 不祥灵验稳当 LIBERO 环境中的任务,获取了 78.1% 的最高平均告捷率,并在统共无 state 输入的战略中名顺次一。
△Figure 4. Adapting to New Robot Setups on Franka Robot.
△Figure 5. LIBERO Simulation Benchmark Results.
3. 空间无间才智评估
团队从三类机器东谈主建立评估的空间无间才智:Franka 机器东谈主微调, WidowX 机器东谈主零样本泛化,以及 Libero-Spatial 微调。任务展示了不同的空间复杂性,任务波及教导无间,深度变化感知,物体布局变化。与现存战略比较,SpatialVLA 展现了优胜的空间无间才智,在 Franka 任务 #1 中获取了 73% 的准确率,显耀擢升了在 WidowX 零 -shot 任务(任务 #2-4)中的操作才智,尤其是在复杂的位置变化上。在 LIBERO-Spatial 任务中,SpatiaVLA 获取了 88.2% 的告捷率。像 Octo、Diffusion Policy 和 OpenVLA 等战略,由于短少深度信息的集成,在稳当空间布局变化时濒临较大挑战,其告捷率恒久低于 50%。因此,团队建议将 3D 信息,如深度或点云,集成到 VLA 框架中,以提高模子在空间布局变化中的稳当性和鲁棒性。
△Figure 6. Spatial Understanding Capability Evaluation.
Huggingface: https://huggingface.co/collections/IPEC-COMMUNITY
老师代码: https://github.com/SpatialVLA/SpatialVLA
样貌主页: https://spatialvla.github.io
论文地址: https://arxiv.org/abs/2501.15830
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本色
附上论文 / 样貌主页无间,以及研究姿色哦
咱们会(尽量)实时恢复你
一键柔和 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「提神心」
迎接在指摘区留住你的念念法!Bsports网页版登录