UMI 全称叫 Universal Manipulation Interface,最早来自斯坦福在 2024 年 2 月建议的一套责任。
其中枢是用与具体机器东说念主本色解耦的容貌,纪录东说念主类在真的物理天下中的操作行为,把"操作意图 + 通顺轨迹 + 多模态感知"合资到一个通用接口里,供不同形态的机器东说念主学习和复现。
在旧年 9 月之前,UMI 照旧一个偏冷门的主见。
具身智能进入下半场后,数据的迫切性突飞猛进。
丁琰共享说念,前段时刻有东说念主归纳了具身智能在惩办数据转折时的四种解法。
遥操作数据,最有名的代表是智元机器东说念主。
仿真数据,代表公司是星河通用机器东说念主。
东说念主类视频数据,它石智能便是这种解法的代表。
UMI,旧年 9 月运转冒头,鹿明便是代表性公司。
鹿明基于现实需求,作念出了一个名为 FastUMI Pro 的产品,这是一个无本色数采硬件。
系统适配市面主流机械臂和夹爪,机身分量在 600 多克量级,但能夹起两三公斤物品,场景遮蔽工场与家庭。
它还撑捏多模态输入,包括触觉、听觉、六维力等。
在 UMI 开荒最中枢的空间精度上,丁琰称 FastUMI Pro 的 1mm 是"全球最高精度"。
硬件产品背后,还有鹿明布局的数据收罗、模子西宾生态。
以"可复现"看成第一性旨趣作念数据握住,丁琰率领团队修复了 8 说念工业级数据质地评估体系,并承诺只请托 100% 可复现轨迹。
(以下为丁琰共享的对于具身行业数采、UMI 等关联内容,在不转换欢喜的基础上作了裁剪调遣)
具身数采的现有痛点
2024 年 3 月起,我就运转在作念 UMI,应该是大陆最早作念这一块的东说念主。
全球都知说念,具身智能最关键的便是数据,海量的数据是西宾的一个必经之路。
然则数据当今有许多痛点。
第一个痛点便是资本,资本特殊深重。
好意思国那处,为了收罗一个小时的西宾数据,大摘要付出 100-200 好意思金的资本。
当今的具身模子都还很小,PI 0 的西宾数据粗略是 1 万个小时,Generalist 的 GEN 0 是 27 万个小时。这个范围对比 GPT-3 的西宾数据,还短长常小的。
咱们作念了一个统计,粗略特殊于 7.9 亿个小时的数据,才调在具身智能界训出一个 GPT-3 范围的模子。按照当今的市集价钱,需要奢侈数百亿好意思金。
另外,具身数据举座收罗成果照旧比拟低的。
2023 年到 2024 年傍边,业内都是以遥操为主,一个小时粗略能收罗 35 条数据,成果特殊低,资本也不可控。
遥操还有个问题是什么呢,便是收罗时,因为录像头纪录的是机械臂本人的通顺轨迹和画面,但每家机器东说念主长得又都不同样,是以用 A 机器东说念主作念遥操作收罗的数据是很难很难用到 B 机器东说念主上的,这就产生了数据孤岛问题。
全球重叠造轮子,也会变成深重的隐形资本。
这是咱们思惩办的关键问题地方。
用 UMI 数采,你为什么训不出来模子?
前段时刻我写了一篇小红薯,题目叫《你为什么西宾不出来 UMI 的模子?》。
我思就此次契机浅显跟全球先容一下 UMI 行业的近况。全球可能看到的更多的是冰山的一角,但浮在水底下的一个天下照旧比拟深的。
一个很显着的近况便是什么呢?
作念 UMI 的东说念主陆陆续续越来越多,然则训出来模子的特殊的少,可能一只手都数得过来。
许多 UMI 开荒领会出来,全球都会强调我方低资本、能即插即用、快速部署,然则基本上你看不到什么见效的案例,就这个短长常相当专门旨真理的情景。
国际有两家比拟著名的公司,一个叫 Sunday,一个叫 Generalist,他们照旧训出模子了。
国内目前咱们以为训模子训得比拟好的一家便是咱们,再有便是清华一家,上交一家,总计也就两、三家能训得出来。
大多数情况下,要么训不出来,要么即使是在相似的要求下能跑出来 demo,时刻也相当短,可能就 3、4 秒,也很卡顿,不丝滑。
对于为什么全球用 UMI 收罗出来的数据训不出模子,最常见的施展是"算法不是很熟识""模子不够大""数据范围不及",然则其实这些施展都不是简直的原因。
简直的原因压根不在于西宾阶段,而在于西宾之初它就不是太对——
多数的 UMI 数据从生成运转就不具备进入西宾管线的这个要求。
说白了便是数据永诀格。
什么是不错西宾的 UMI 数据
全球会有诬蔑,总以为 UMI 数据便是东说念主拿个夹爪,就把这个视频数据纪录下来就行了,相当相当浅显,整个东说念主都不错作念。
其实都备不是。
UMI 其实是 AI 对物理天下的交融对都,况兼在这个物理空间内部不错复现的这种交互行为。
它必须兴盛几个要求。
隔断了讲,第一个便是说画面要跟动作要严格对都,要跟空间位置严格对都;另外一个便是说因为 UMI 不错集成多个传感器,每个传感器之间也要作念到毫秒级的同步。
举个例子,一个东说念主思去拿咫尺的一瓶水,不对都的话得反馈好几秒,水就可能拿不起来。
另外,一个好的轨迹必须不错在物理空间通顺中可复现的。
本质要求是但愿 UMI 收罗的数据是高一致性的、高密度的,况兼可复现的时序数据结构。
为什么大多数 UMI 开荒采不到好的数据?
当今多数的 UMI 开荒采不出兴盛要求的数据,两个压根原因。
一,中枢问题是硬件才调都备不够。
UMI 的 CMOS 组件或者主控芯片,性能相当差。
导致的独揽便是画面遮蔽有限,画质不奈何好,曝光也不奈何好,帧率比拟抖动,这时候画面就相当恶运。
它龙套了动作和视觉的因果算计。蓝本师法学习便是我看到什么画面就作念什么动作,独揽画面和动作都备无法对都,就会导致这个模子压根没办法学习。
二,市面上许多产品不是系统野心的,而是许多现成模块勉强起来,用 USB Hub 连续的。
这样一来,产品的贷款架构相当脆弱,每个模块都会抢带宽。一朝有什么负载,就会出现掉帧等一系列问题,是以数据的质地就相当恶运,基本没办法沉着复现交互纪录。
也便是说,从硬件层面讲,这些开荒从一运转就没办法训出模子需要的数据。
"脏数据"和"废数据"
但即使开荒好了,采的数据能不可训出数据也不是一定的。
举个例子,别东说念主拿到咱们的开荒,也不一定能训出好的数据。
为什么呢?这就要说数据的质地高下了。
数据质地的高下其实并不是干净进程,而是说灵验的信息密度。
低质地的数据,包含多数抖动、漂移、时刻错位,相当不利于学习。极度是在单视角情况(许多 UMI 是单个机械臂),这种噪声不会因为你的数据量增大而被平滑掉,是以说你学出来的战略会相当相当恶运,基本上训不出来。
廉价值数据不是都备莫得价值。
它照旧有点价值,不错去意志这个天下,知说念什么是杯子,什么是麦克风,但没办法从它身上学习到精准的物理交互信息。
它不知说念桌上的麦克风我是奈何拿到的,我到底该正着拿照旧反着拿,照旧需要歪斜角度去拿。
除了低质地的脏数据,我还把一种数据叫"废数据"。
废数据是什么?
便是许多东说念主拿着开荒径直去众包去收罗了,东说念主奈何采就拿它奈何采。
这种数据都备 copy 东说念主类的当然行为,莫得任何野心和手段,过于"自然去雕刻"了,基本上是不可能训出来模子的。
当今都在作念的叠衣着,其实是最需要收罗手段的一个任务。叠衣着的时候要抖一下,抖的经过中还要提神主见、速率,才调抖好。
但东说念主在叠衣着的时候,很少会提神那么多 tricks。
每产物身公司都有我方的收罗手段,是以要是莫得注入任何手段,即便拿到很好的 UMI 开荒,收罗的数据很像东说念主的行为,但其实是废数据,基本上模子西宾不了。
能虽然可能将来,十年、二十年,模子发展好了,这些数据可能就有用了。但目前很长一段阶段这些数据基本上训不了,是以称为废数据。
硬件、数据和算法丝丝入扣
正确的 UMI 的工程范式最初是一种系统的自洽,而不是一种浅显的功能拼接。
传统的旅途底下全球作念机器东说念主,最初有个硬件,硬件弄完毕之后再弄软件,弄完软件我再弄算法,我反及其来我再去补点数据,把这个通盘 loop 给跑通。
但在 UMI 这个很额外的场景下,这个范式是失效的。
因为 UMI 是一个强耦合系统,数据会决定通盘模子的性能,硬件会决定这个数据的质地;数据又会决定这个算法的性能,算法又会反向去抑遏我这个硬件的实践和这个数据的野心。
硬件、数据和算法丝丝入扣,任何单点的这种失效都会导致训不出优秀的模子。
对于 UMI,团队作念了什么
博士毕业后,我从 2024 年 3 月就运转在作念面向 UMI 的责任。
旧年 9 月之前,UMI 在行业里照旧比拟冷门的,除了我和我的团队基本没东说念主作念。
其时咱们就有一个愿景,但愿能龙套这个数据获取的这个不可能的三角,把相当高质地的数据砍到白菜价,加快诓骗来股东这个通盘具身智能行业的发展。
这里跟全球共享我和团队近两年的一些典型责任。
最初便是 FastUMI,我是这篇责任的通信作家。
FastUMI 应该是全球首个将学术界(UMI,斯坦福,2024 年 2 月)的责任升级成工业级别系统,然后股东它进入工业的。咱们从 2024 年 3 月傍边运转作念这个责任,在 7、8 月傍边完成,畴前的 9 月中了 CoRL 2025。
FastUMI 主要惩办的问题是擢升收罗成果和数据质地。
另外一个责任是 FastUMI 100K。
在有了一个很沉着的软硬件系统后,咱们运转扩大范围去采数据。其时我在上海 AI Lab 修复了一个数采长,我带着 11 个东说念主在 3 个月时刻里,收罗了 10 万条真机数据,为机器学习提供了相当高质地的数据撑捏。
这是全天下首个大型的 UMI 数据集。
从这个责任中 FastUMI 团队得回了大范围的数据握住的训戒。
咱们还有一个责任叫 Fastumi-MLM,它把 UMI 这项工夫用于"狗 + 臂"。
之前 UMI 都诓骗在单臂、双臂或者轮式双臂责任上。这是大陆第一个能将 UMI 用在这种构型机器东说念主上的责任。
除此除外,还有 Spatial VLA、Agibot World、AskVLA 等等。
— 接待 AI 产品从业者共建 —
� �「AI 产品学问库」是量子位智库基于永久产品库跟踪和用户行为数据推出的飞书学问库,旨在成为 AI 行业从业者、投资者、磋磨者的中枢信息瑕玷与决议撑捏平台。
一键柔顺 � � 点亮星标
科技前沿阐述逐日见情欲直播系统小说h












