本文作者:nasi

绍兴远程会议直播系统

nasi 昨天 4
绍兴远程会议直播系统摘要: 钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业...
钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业快速搭建稳定高效的直播平台。

绍兴远程会议直播系统

UMI 全称叫 Universal Manipulation Interface,最早来自斯坦福在 2024 年 2 月漠视的一套使命。

其中枢是用与具体机器东谈主骨子解耦的神气,记载东谈主类在确什物理寰宇中的操作行为,把"操作意图 + 默契轨迹 + 多模态感知"斡旋到一个通用接口里,供不同方式的机器东谈主学习和复现。

在客岁 9 月之前,UMI 如故一个偏冷门的标的。

具身智能进入下半场后,数据的热切性无独有偶。

丁琰共享谈,前段时期有东谈主归纳了具身智能在处置数据勤勉时的四种解法。

遥操作数据,最盛名的代表是智元机器东谈主。

仿真数据,代表公司是星河通用机器东谈主。

东谈主类视频数据,它石智能即是这种解法的代表。

UMI,客岁 9 月运行冒头,鹿明即是代表性公司。

鹿明基于现实需求,作念出了一个名为 FastUMI Pro 的产品,这是一个无骨子数采硬件。

系统适配市面主流机械臂和夹爪,机身分量在 600 多克量级,但能夹起两三公斤物品,场景隐蔽工场与家庭。

它还扶助多模态输入,包括触觉、听觉、六维力等。

在 UMI 开发最中枢的空间精度上,丁琰称 FastUMI Pro 的 1mm 是"全球最高精度"。

绍兴远程会议直播系统

硬件产品背后,还有鹿明布局的数据会聚、模子磨真金不怕火生态。

以"可复现"手脚第一性道理作念数据不停,丁琰指导团队诞生了 8 谈工业级数据质料评估体系,并承诺只拜托 100% 可复现轨迹。

(以下为丁琰共享的对于具身行业数采、UMI 等计划内容,在不转换快活的基础上作了剪辑调遣)

具身数采的现有痛点

2024 年 3 月起,我就运行在作念 UMI,应该是大陆最早作念这一块的东谈主。

群众都知谈,具身智能最过失的即是数据,海量的数据是磨真金不怕火的一个必经之路。

关联词数据当今有好多痛点。

第一个痛点即是本钱,本钱相当不菲。

好意思国那儿,为了会聚一个小时的磨真金不怕火数据,大摘抄付出 100-200 好意思金的本钱。

当今的具身模子都还很小,PI 0 的磨真金不怕火数据无意是 1 万个小时,Generalist 的 GEN 0 是 27 万个小时。这个限制对比 GPT-3 的磨真金不怕火数据,如故相称小的。

咱们作念了一个统计,无意突出于 7.9 亿个小时的数据,才能在具身智能界训出一个 GPT-3 限制的模子。按照当今的阛阓价钱,需要耗尽数百亿好意思金。

绍兴远程会议直播系统

另外,具身数据举座会聚效果如故相比低的。

2023 年到 2024 年傍边,业内都是以遥操为主,一个小时无意能会聚 35 条数据,效果相当低,本钱也不可控。

遥操还有个问题是什么呢,即是会聚时,因为录像头记载的是机械臂本人的默契轨迹和画面,但每家机器东谈主长得又都不雷同,是以用 A 机器东谈主作念遥操作会聚的数据是很难很难用到 B 机器东谈主上的,这就产生了数据孤岛问题。

群众重迭造轮子,也会形成不菲的隐形本钱。

这是咱们念念处置的过失问题地方。

用 UMI 数采,你为什么训不出来模子?

前段时期我写了一篇小红薯,题目叫《你为什么磨真金不怕火不出来 UMI 的模子?》。

我念念就此次契机简便跟群众先容一下 UMI 行业的近况。群众可能看到的更多的是冰山的一角,但浮在水底下的一个寰宇如故相比深的。

一个很光显的近况即是什么呢?

作念 UMI 的东谈主陆继续续越来越多,关联词训出来模子的相当的少,可能一只手都数得过来。

好多 UMI 开发披知道来,群众都会强调我方低本钱、能即插即用、快速部署,关联词基本上你看不到什么胜利的案例,就这个是相称相称有道理的局势。

绍兴远程会议直播系统

外洋有两家相比著名的公司,一个叫 Sunday,一个叫 Generalist,他们如故训出模子了。

国内目前咱们合计训模子训得相比好的一家即是咱们,再有即是清华一家,上交一家,系数也就两、三家能训得出来。

大多数情况下,要么训不出来,要么即使是在相似的要求下能跑出来 demo,时期也相称短,可能就 3、4 秒,也很卡顿,不丝滑。

对于为什么群众用 UMI 会聚出来的数据训不出模子,最常见的施展是"算法不是很进修""模子不够大""数据限制不及",关联词其实这些施展都不是着实的原因。

着实的原因根柢不在于磨真金不怕火阶段,而在于磨真金不怕火之初它就不是太对——

多数的 UMI 数据从生成运行就不具备进入磨真金不怕火管线的这个要求。

说白了即是数据不对格。

绍兴远程会议直播系统

什么是不错磨真金不怕火的 UMI 数据

群众会有扭曲,总合计 UMI 数据即是东谈主拿个夹爪,就把这个视频数据记载下来就行了,相称相称简便,系数东谈主都不错作念。

其实统统不是。

UMI 其实是 AI 对物理寰宇的交融对王人,何况在这个物理空间内部不错复现的这种交互行为。

它必须快乐几个要求。

绍兴远程会议直播系统

终结了讲,第一个即是说画面要跟动作要严格对王人,要跟空间位置严格对王人;另外一个即是说因为 UMI 不错集成多个传感器,每个传感器之间也要作念到毫秒级的同步。

举个例子,一个东谈主念念去拿咫尺的一瓶水,不对王人的话得反馈好几秒,水就可能拿不起来。

另外,一个好的轨迹必须不错在物理空间默契中可复现的。

本质要求是但愿 UMI 会聚的数据是高一致性的、高密度的,何况可复现的时序数据结构。

为什么大多数 UMI 开发采不到好的数据?

当今多数的 UMI 开发采不出快乐要求的数据,两个根柢原因。

一,中枢问题是硬件才智统统不够。

UMI 的 CMOS 组件或者主控芯片,性能相称差。

导致的铁心即是画面隐蔽有限,画质不怎样好,曝光也不怎样好,帧率相比抖动,这时候画面就相称倒霉。

它碎裂了动作和视觉的因果计划。正本效法学习即是我看到什么画面就作念什么动作,铁心画面和动作统统无法对王人,就会导致这个模子根柢没认识学习。

绍兴远程会议直播系统

二,市面上好多产品不是系统设想的,而是好多现成模块强迫起来,用 USB Hub 链接的。

这样一来,产品的贷款架构相称脆弱,每个模块都会抢带宽。一朝有什么负载,就会出现掉帧等一系列问题,是以数据的质料就相称倒霉,基本没认识踏实复现交互记载。

也即是说,从硬件层面讲,这些开发从一运行就没认识训出模子需要的数据。

"脏数据"和"废数据"

但即使开发好了,采的数据能不可训出数据也不是一定的。

举个例子,别东谈主拿到咱们的开发,也不一定能训出好的数据。

为什么呢?这就要说数据的质料上下了。

数据质料的上下其实并不是干净进度,而是说有用的信息密度。

低质料的数据,包含多数抖动、漂移、时期错位,相称不利于学习。独特是在单视角情况(好多 UMI 是单个机械臂),这种噪声不会因为你的数据量增大而被平滑掉,是以说你学出来的政策会相称相称倒霉,基本上训不出来。

廉价值数据不是统统莫得价值。

它如故有点价值,不错去坚定这个寰宇,知谈什么是杯子,什么是麦克风,但没认识从它身上学习到精准的物理交互信息。

它不知谈桌上的麦克风我是怎样拿到的,我到底该正着拿如故反着拿,如故需要歪斜角度去拿。

除了低质料的脏数据,我还把一种数据叫"废数据"。

绍兴远程会议直播系统

废数据是什么?

即是好多东谈主拿着开发径直去众包去会聚了,东谈主怎样采就拿它怎样采。

这种数据统统 copy 东谈主类的当然行为,莫得任何设想和手段,过于"自然去雕琢"了,基本上是不可能训出来模子的。

当今都在作念的叠穿戴,其实是最需要会聚手段的一个任务。叠穿戴的时候要抖一下,抖的经过中还要注重标的、速率,才能抖好。

但东谈主在叠穿戴的时候,很少会注重那么多 tricks。

每产品身公司都有我方的会聚手段,是以若是莫得注入任何手段,即便拿到很好的 UMI 开发,会聚的数据很像东谈主的行为,但其实是废数据,基本上模子磨真金不怕火不了。

能虽然可能将来,十年、二十年,模子发展好了,这些数据可能就有用了。但目前很长一段阶段这些数据基本上训不了,是以称为废数据。

硬件、数据和算法头重脚轻紊

正确的 UMI 的工程范式当先是一种系统的自洽,而不是一种简便的功能拼接。

传统的旅途底下群众作念机器东谈主,当先有个硬件,硬件弄完毕之后再弄软件,弄完软件我再弄算法,我反突出来我再去补点数据,把这个系数这个词 loop 给跑通。

但在 UMI 这个很特殊的场景下,这个范式是失效的。

因为 UMI 是一个强耦合系统,数据会决定系数这个词模子的性能,硬件会决定这个数据的质料;数据又会决定这个算法的性能,算法又会反向去敛迹我这个硬件的践诺和这个数据的设想。

硬件、数据和算法头重脚轻紊,任何单点的这种失效都会导致训不出优秀的模子。

绍兴远程会议直播系统

对于 UMI,团队作念了什么

博士毕业后,我从 2024 年 3 月就运行在作念面向 UMI 的使命。

客岁 9 月之前,UMI 在行业里如故相比冷门的,除了我和我的团队基本没东谈主作念。

其时咱们就有一个愿景,但愿能突破这个数据获取的这个不可能的三角,把相称高质料的数据砍到白菜价,加快运用来鞭策这个系数这个词具身智能行业的发展。

这里跟群众共享我和团队近两年的一些典型使命。

绍兴远程会议直播系统

当先即是 FastUMI,我是这篇使命的通信作家。

FastUMI 应该是全球首个将学术界(UMI,斯坦福,2024 年 2 月)的使命升级成工业级别系统,然后鞭策它进入工业的。咱们从 2024 年 3 月傍边运行作念这个使命,在 7、8 月傍边完成,昔日的 9 月中了 CoRL 2025。

FastUMI 主要处置的问题是提升会聚效果和数据质料。

另外一个使命是 FastUMI 100K。

在有了一个很踏实的软硬件系统后,咱们运行扩大限制去采数据。其时我在上海 AI Lab 诞生了一个数采长,我带着 11 个东谈主在 3 个月时期里,会聚了 10 万条真机数据,为机器学习提供了相称高质料的数据扶助。

这是全寰宇首个大型的 UMI 数据集。

从这个使命中 FastUMI 团队取得了大限制的数据不停的劝诫。

咱们还有一个使命叫 Fastumi-MLM,它把 UMI 这项时代用于"狗 + 臂"。

之前 UMI 都运用在单臂、双臂或者轮式双臂使命上。这是大陆第一个能将 UMI 用在这种构型机器东谈主上的使命。

除此以外,还有 Spatial VLA、Agibot World、AskVLA 等等。

—  迎接 AI 产品从业者共建  —

� �「AI 产品常识库」是量子位智库基于恒久产品库跟踪和用户行为数据推出的飞书常识库,旨在成为 AI 行业从业者、投资者、探究者的中枢信息关节与有设想扶助平台。

一键柔和 � � 点亮星标

科技前沿推崇逐日见绍兴远程会议直播系统

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享