UMI 全称叫 Universal Manipulation Interface,最早来自斯坦福在 2024 年 2 月提议的一套使命。
其中枢是用与具体机器东谈主骨子解耦的方式,纪录东谈主类在果然物理寰球中的操作活动,把"操作意图 + 通顺轨迹 + 多模态感知"合伙到一个通用接口里,供不同形态的机器东谈主学习和复现。
在旧年 9 月之前,UMI 如故一个偏冷门的方针。
具身智能进入下半场后,数据的遑急性突飞猛进。
丁琰共享谈,前段时刻有东谈主归纳了具身智能在惩办数据贫穷时的四种解法。
遥操作数据,最有名的代表是智元机器东谈主。
仿真数据,代表公司是星河通用机器东谈主。
东谈主类视频数据,它石智能即是这种解法的代表。
UMI,旧年 9 月启动冒头,鹿明即是代表性公司。
鹿明基于现实需求,作念出了一个名为 FastUMI Pro 的产品,这是一个无骨子数采硬件。
系统适配市面主流机械臂和夹爪,机身分量在 600 多克量级,但能夹起两三公斤物品,场景障翳工场与家庭。
它还相沿多模态输入,包括触觉、听觉、六维力等。
在 UMI 开拓最中枢的空间精度上,丁琰称 FastUMI Pro 的 1mm 是"全球最高精度"。
硬件产品背后,还有鹿明布局的数据集聚、模子磨真金不怕火生态。
以"可复现"当作第一性旨趣作念数据经管,丁琰教唆团队开拓了 8 谈工业级数据质料评估体系,并承诺只委派 100% 可复现轨迹。
(以下为丁琰共享的对于具身行业数采、UMI 等相关内容,在不转变容许的基础上作了裁剪诊疗)
具身数采的现有痛点
2024 年 3 月起,我就启动在作念 UMI,应该是大陆最早作念这一块的东谈主。
各人都知谈,具身智能最环节的即是数据,海量的数据是磨真金不怕火的一个必经之路。
然则数据当今有许多痛点。
第一个痛点即是老本,老本特别腾贵。
好意思国那儿,为了集聚一个小时的磨真金不怕火数据,大摘要付出 100-200 好意思金的老本。
当今的具身模子都还很小,PI 0 的磨真金不怕火数据或者是 1 万个小时,Generalist 的 GEN 0 是 27 万个小时。这个边界对比 GPT-3 的磨真金不怕火数据,还短长常小的。
咱们作念了一个统计,或者十分于 7.9 亿个小时的数据,才能在具身智能界训出一个 GPT-3 边界的模子。按照当今的商场价钱,需要虚耗数百亿好意思金。
另外,具身数据举座集聚成果如故比拟低的。
2023 年到 2024 年驾御,业内都是以遥操为主,一个小时或者能集聚 35 条数据,成果特别低,老本也不可控。
遥操还有个问题是什么呢,即是集聚时,因为录像头纪录的是机械臂自己的通顺轨迹和画面,但每家机器东谈主长得又都不相通,是以用 A 机器东谈主作念遥操作集聚的数据是很难很难用到 B 机器东谈主上的,这就产生了数据孤岛问题。
各人重叠造轮子,也会酿成腾贵的隐形老本。
这是咱们念念惩办的环节问题场所。
用 UMI 数采,你为什么训不出来模子?
前段时刻我写了一篇小红薯,题目叫《你为什么磨真金不怕火不出来 UMI 的模子?》。
我念念就此次契机通俗跟各人先容一下 UMI 行业的近况。各人可能看到的更多的是冰山的一角,但浮在水底下的一个寰球如故比拟深的。
一个很显明的近况即是什么呢?
作念 UMI 的东谈主陆连续续越来越多,然则训出来模子的特别的少,可能一只手都数得过来。
许多 UMI 开拓显现出来,各人都会强调我方低老本、能即插即用、快速部署,然则基本上你看不到什么告捷的案例,就这个短长常相配有兴趣的格式。
海外有两家比拟驰名的公司,一个叫 Sunday,一个叫 Generalist,他们如故训出模子了。
国内目前咱们认为训模子训得比拟好的一家即是咱们,再有即是清华一家,上交一家,总计也就两、三家能训得出来。
大多数情况下,要么训不出来,要么即使是在相似的条目下能跑出来 demo,时刻也相配短,可能就 3、4 秒,也很卡顿,不丝滑。
对于为什么各人用 UMI 集聚出来的数据训不出模子,最常见的发挥是"算法不是很纯属""模子不够大""数据边界不及",然则其实这些发挥都不是果然的原因。
果然的原因根蒂不在于磨真金不怕火阶段,而在于磨真金不怕火之初它就不是太对——
多数的 UMI 数据从生成启动就不具备进入磨真金不怕火管线的这个条目。
说白了即是数据不对格。
什么是不错磨真金不怕火的 UMI 数据
各人会有诬蔑,总认为 UMI 数据即是东谈主拿个夹爪,就把这个视频数据纪录下来就行了,相配相配通俗,系数东谈主都不错作念。
其实统统不是。
UMI 其实是 AI 对物理寰球的交融对都,何况在这个物理空间内部不错复现的这种交互活动。
它必须险恶几个条目。
隔断了讲,第一个即是说画面要跟动作要严格对都,要跟空间位置严格对都;另外一个即是说因为 UMI 不错集成多个传感器,每个传感器之间也要作念到毫秒级的同步。
举个例子,一个东谈主念念去拿目下的一瓶水,不对都的话得反映好几秒,水就可能拿不起来。
另外,一个好的轨迹必须不错在物理空间通顺中可复现的。
本质要求是但愿 UMI 集聚的数据是高一致性的、高密度的,何况可复现的时序数据结构。
为什么大多数 UMI 开拓采不到好的数据?
当今多数的 UMI 开拓采不脱险恶条目的数据,两个根蒂原因。
一,中枢问题是硬件才气统统不够。
UMI 的 CMOS 组件或者主控芯片,性能相配差。
导致的完毕即是画面障翳有限,画质不若何好,曝光也不若何好,帧率比拟抖动,这时候画面就相配灾祸。
它疏忽了动作和视觉的因果关系。原来师法学习即是我看到什么画面就作念什么动作,完毕画面和动作统统无法对都,就会导致这个模子根蒂没意见学习。
二,市面上许多产品不是系统瞎想的,而是许多现成模块对付起来,用 USB Hub 相接的。
这样一来,产品的贷款架构相配脆弱,每个模块都会抢带宽。一朝有什么负载,就会出现掉帧等一系列问题,是以数据的质料就相配灾祸,基本没意见踏实复现交互纪录。
也即是说,从硬件层面讲,这些开拓从一启动就没意见训出模子需要的数据。
"脏数据"和"废数据"
但即使开拓好了,采的数据能弗成训出数据也不是一定的。
举个例子,别东谈主拿到咱们的开拓,也不一定能训出好的数据。
为什么呢?这就要说数据的质料上下了。
数据质料的上下其实并不是干净进程,而是说灵验的信息密度。
低质料的数据,包含多数抖动、漂移、时刻错位,相配不利于学习。杰出是在单视角情况(许多 UMI 是单个机械臂),这种噪声不会因为你的数据量增大而被平滑掉,是以说你学出来的计谋会相配相配灾祸,基本上训不出来。
廉价值数据不是统统莫得价值。
它如故有点价值,不错去意识这个寰球,知谈什么是杯子,什么是麦克风,但没意见从它身上学习到精准的物理交互信息。
它不知谈桌上的麦克风我是若何拿到的,我到底该正着拿如故反着拿,如故需要歪斜角度去拿。
除了低质料的脏数据,我还把一种数据叫"废数据"。
废数据是什么?
即是许多东谈主拿着开拓胜仗去众包去集聚了,东谈主若何采就拿它若何采。
这种数据统统 copy 东谈主类的当然活动,莫得任何瞎想和手段,过于"自然去雕刻"了,基本上是不可能训出来模子的。
当今都在作念的叠穿着,其实是最需要集聚手段的一个任务。叠穿着的时候要抖一下,抖的经由中还要能干方针、速率,才能抖好。
但东谈主在叠穿着的时候,很少会能干那么多 tricks。
每产品身公司都有我方的集聚手段,是以淌若莫得注入任何手段,即便拿到很好的 UMI 开拓,集聚的数据很像东谈主的活动,但其实是废数据,基本上模子磨真金不怕火不了。
能虽然可能改日,十年、二十年,模子发展好了,这些数据可能就有用了。但目前很长一段阶段这些数据基本上训不了,是以称为废数据。
硬件、数据和算法头重脚轻紊
正确的 UMI 的工程范式领先是一种系统的自洽,而不是一种通俗的功能拼接。
传统的旅途底下各人作念机器东谈主,领先有个硬件,硬件弄罢了之后再弄软件,弄完软件我再弄算法,我反及其来我再去补点数据,把这个系数这个词 loop 给跑通。
但在 UMI 这个很特地的场景下,这个范式是失效的。
因为 UMI 是一个强耦合系统,数据会决定系数这个词模子的性能,硬件会决定这个数据的质料;数据又会决定这个算法的性能,算法又会反向去抵制我这个硬件的践诺和这个数据的瞎想。
硬件、数据和算法头重脚轻紊,任何单点的这种失效都会导致训不出优秀的模子。
对于 UMI,团队作念了什么
博士毕业后,我从 2024 年 3 月就启动在作念面向 UMI 的使命。
旧年 9 月之前,UMI 在行业里如故比拟冷门的,除了我和我的团队基本没东谈主作念。
那时咱们就有一个愿景,但愿能冲破这个数据获取的这个不可能的三角,把相配高质料的数据砍到白菜价,加快利用来鼓吹这个系数这个词具身智能行业的发展。
这里跟各人共享我和团队近两年的一些典型使命。
领先即是 FastUMI,我是这篇使命的通信作家。
FastUMI 应该是全球首个将学术界(UMI,斯坦福,2024 年 2 月)的使命升级成工业级别系统,然后鼓吹它进入工业的。咱们从 2024 年 3 月驾御启动作念这个使命,在 7、8 月驾御完成,往常的 9 月中了 CoRL 2025。
FastUMI 主要惩办的问题是擢升集聚成果和数据质料。
另外一个使命是 FastUMI 100K。
在有了一个很踏实的软硬件系统后,咱们启动扩大边界去采数据。那时我在上海 AI Lab 开拓了一个数采长,我带着 11 个东谈主在 3 个月时刻里,集聚了 10 万条真机数据,为机器学习提供了相配高质料的数据相沿。
这是全寰球首个大型的 UMI 数据集。
从这个使命中 FastUMI 团队得回了大边界的数据经管的涵养。
咱们还有一个使命叫 Fastumi-MLM,它把 UMI 这项技巧用于"狗 + 臂"。
之前 UMI 都利用在单臂、双臂或者轮式双臂使命上。这是大陆第一个能将 UMI 用在这种构型机器东谈主上的使命。
除此以外,还有 Spatial VLA、Agibot World、AskVLA 等等。
— 迎接 AI 产品从业者共建 —
� �「AI 产品常识库」是量子位智库基于永久产品库跟踪和用户活动数据推出的飞书常识库,旨在成为 AI 行业从业者、投资者、征询者的中枢信息要道与有盘算推算相沿平台。
一键温柔 � � 点亮星标
科技前沿发扬逐日见贵州互动直播系统价格












