在 12 月 13 日举行的第八届 GAIR 全球东谈主工智能与机器东谈主大会"数据 & 一脑多形"分论坛上,一场研究"一脑多形"的圆桌论坛,将所有这个词会场脑怒推向上升,在英诺天神基金 ED 王建明的主合手下,浙江大学适度学院副教师,微分智飞独创东谈主高飞,宁波东方理工大学助理教师金鑫,上海东谈主工智能实验室后生科学家王靖博三位嘉宾围绕着具身智能、空间智能、宇宙模子等话题进行了强烈筹议。
通过主合手东谈主独有的投资东谈主式、抽丝剥茧的发问,围绕着几位学者的研究和创业场合,咱们可以了解到当下最火热的宇宙模子、空间智能在具身智能边界的研究推崇和细节,从而得以穿透老本笼罩辞宇宙模子、空间智能的迷雾,看到具身智能当下际遇的挑战与机遇。

具身智能本事道路仍未贬抑
王建明:三位学者研究的场合都格外不一样,开场先问一个共性的问题热热场,大众如何看畴昔两年具身智能的发展?
高飞:当今还没到本事道路贬抑的时候,还属于探索阶段,这是功德,有发散才有契机。这波具身智能的上升,大众践诺期待的如故 AI 伙同骨子能带来的智能性的飞跃。我认为从发散探索到本事道路贬抑、到临了落地阶段,大众如故要记取我方作念具身智能的初心是什么。如果不是为了通用泛化智能,临了这个边界又贬抑回工业自动化了,可能就莫得太大的道理了。
金鑫:我也格外欢喜高淳厚的看法,我嗅觉这两年留给高校的契机相对产业界来讲比较少,但愿改日更多把具身智能的中枢问题交给高校去打破,比如交互、东谈主机协同、多智能体、宇宙模子等等空洞出的要道问题,产业去作念更落地的事情。但愿改日两年能看到高校跟企业更好地配合、均衡。
王靖博:比较较在纯数字宇宙中作念一些举例 scaling up 的事情,我更关注具身智能软硬件的 code design,比如东谈主形机器东谈主十年前的波士顿能源 Atlas 就展示出了很好的通顺智力,但它并莫得从实验室的居品参预产业界,当有了较好的软硬件的 code design,可能会加速所有这个词边界的进度。
王建明:高飞淳厚的演讲刚刚展示了尽头多的智力,举例单个机器东谈主的自主旅途的计算决策、集群、遨游操作,demo 演示都格外惊艳,这些智力背后是如何作念到的?跟您过往研究是否有协同?
高飞:很难有一句话来说显着如何作念到的,不同的 demo 详情有不同的本事道路,我之是以比较擅长作念一些比较 fancy 的 demo,可能是因为我比较擅长在保合手着一定发散念念维的情况下,还有比较好的引申力,临了能把想法落实。在具体本事道路里,我的上风可能是:在无东谈主机边界,我可能是比较懂 AI 的;在 AI 边界,我可能是比较懂无东谈主机的。
单体机器东谈主的研究念念路是通过放大其极限情况下的小脑智力,当今比较得当贬抑的本事道路越来越往端到端的场合歪斜。通过端到端可以缩短所有这个词系统的 compound error(复合舛错)和缩短蔓延。具体用什么解法,就要 case by case,作念 robotics 的公正即是这是很尊重客不雅事实、面向对象的一个学科,什么好用咱们用什么。
决策这块,当今业界的共鸣可能要通过放大 VLM 的智力,而关于群体机器东谈主而言,打造一种柔性的、弹性的、散布式的、活泼的群体架构才是一切的基础。
王建明:我比较兴趣无东谈主机的端到端是什么端到端?我的浅易粗化领悟大众说的端到端是一个黑箱操作,是 data driven 的事情。
高飞:我认为端到端和 data driven 是两个主意,举个例子,无东谈主机的端到端是图像输入,电机适度,那是不是一定要用到机器学习、黑箱、RL,其实不一定。20 年前大众研究无东谈主机,就可能会在地上贴一个小球,无东谈主机的录像头看到这个小球,通过把小球的像素点适度在像平面中间,让无东谈主机可以保合手悬停。这是不是端到端?是,因为它用 PID 把一端输入的信息——图像空间中的点舛错,映射到另一端输出的适度领导。
端到端是一种范式,强化学习是一种解法,黑箱是一种形态,三者是不一样的主意,不应该被平直画上等号。
王建明:是以高淳厚的端到端也用到各种解法?
高飞:各种各样的解法,以搞定问题为惟一筹商。
王建明:也有触及到强化学习?
高飞:当今用广阔的强化学习。
王建明:无东谈主机的高速穿越我印象里有强调强化学习,高淳厚的劳动中如故有一些 rule base 的东西存在?
高飞:咱们不叫 rule base,咱们叫 model base 或者叫 principle base,咱们很少去写规定。大众频繁会批判 rule base,然则如果只写了一个规定要如何证实你的算法可以在不同的地方避障。是以它一定不是一套规定,而是一种系统化的形态。
宇宙模子搞定了自动驾驶的哪些问题?
王建明:金淳厚刚共享了好多宇宙模子在自动驾驶边界的打破,金淳厚的研究场合主淌若宇宙模子空间智能。最近一段时辰宇宙模子的主意很火,那么自动驾驶的具体什么问题用宇宙模子来搞定了?
金鑫:当今第一梯队像特斯拉的决策基本都在用宇宙模子,之前他们集结到的数据照旧把数据飞轮转起来了,这样多数据上照旧积贮了广阔的 corner case,那么他们下一步可能就要通过宇宙模子模拟的神态再去生成更多海量数据,举例覆盖掉之前在国内采集的数据以及之前布局不到的地方。
再一个,跟原来通过离线数据闇练比较,通过宇宙模子神态可以作念闭环测试。闭环测试是指上线一个模子后,辞宇宙模子内部跑,跑完后能输出 action 得到改日的气象,再字据改日的气象测试下一步该如何作念,就能把所有这个词 decision making 链路放到 world model 内部去作念闭环的测试跟优化。这是跟原来本事决策最大的不同。
当今宇宙模子在自动驾驶边界为什么这样火,主要如故因为自动驾驶的场景生成如故比较浅易,不像机器东谈主。而自动驾驶边界很早就有宇宙模子的主意,只是叫法不一样叫闭环仿真器,用来作念自动驾驶安全测试。是生成式 AI 智力的培育才使允洽今宇宙模子生成的数据照旧到了真假难辨的地步,为此提供广阔格外有价值的闇练样本。
王建明:视频生成是一种宇宙模子,如果带上机器东谈主的 3D 空间,再加上好多动作维度,这个气象表征可以是多种各种的,那么在自动驾驶边界的表征是什么?是一个共鸣吗?
金鑫:机器东谈主边界宇宙模子道路究竟对不合还存在争议。关于宇宙模子的界说大众也有不同的看法,举例李飞飞跟 LeCun 就存在相反。李飞飞更偏重于 "pixel-wise"(像素级)重建,LeCun 认为不需要重建成东谈主东谈主可见可视的 video,平直" latent-based "抒发出来对应的机器东谈主的 latent state 就可以了,它亦然一种宇宙模子,只有能够给定前序的 action,能够展望出后续的 action,或者 state 气象应该如何变化,骨子下个阶段会出现什么情况,只有能把这个阶段空洞地抒发出来,都算宇宙模子。
是以现时宇宙模子的界说还莫得定式,我认为在自动驾驶跟机器东谈主两个任务之间,关于宇宙模子的条款跟本事范式也都有鉴别。当先宇宙模子那篇 paper 建议的主意也很空洞,只有有能展望改日的智力况且有系念,都可以被称为宇宙模子。
王建明:我不雅察到创业公司层面,当今作念宇宙模子创业的好多公司独创东谈主都有自动驾驶布景,我想了解下自动驾驶的气象表征到底是个什么?
金鑫:可能主流的如故视频生成。因为牵连到安全性问题,如果连视频模态 RGB 的 video 都给不出来,如何敬佩生出来的数据是灵验的?自动驾驶主要如故视频的 ADAS,同期雷达、点云这些传统的数据也要有,是以这是我为什么要作念 UniScene,因为生成的模态越多,信息量越大,我认为 multi model 的出路可能更好。
每家主机厂都在作念我方的决策,因为对安全性的条款以及谈路场景的复杂度不同,偏重也都不一样,举例特斯拉即是纯视觉决策,华为有激光雷达补助。
王建明:宇宙模子搞定具身智颖异系问题,会不会距离太远?
金鑫:前两天 LeCun 公布了多模态 V-JEPA,他一直声称我方的 latent space 即是宇宙模子的决策之一。如果要把宇宙模子打造出来,offline 先作念好,再去驱动具身,这个现时似乎莫得比较明确走通的本事决策,但像 LeCun V-JEPA 平直通过 representation learning 神态先学到对应的展望智力,再去追问补助,其实照旧有不少劳动,比如 VLA。
然则要说它走通了吗,把宇宙模子跟具身伙同起来的决策照旧有东谈主在售卖了,但要说确切达到刚高淳厚说的那种通用智能似乎又莫得,还需要时辰考证。
王建明:当今一种说法是把宇宙模子跟 VLA 对立起来,你刚提到其实这两种可以伙同。
金鑫:咱们昨天上线了一篇研究《Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey》即是将两者伙同起来。如何作念咱们梳理了两种神态,一种是先创建宇宙模子,再作念 policy learning,要么同期作念,不分先后。
王建明:两者伙同搞定的是不同档次的问题?
金鑫:搞定的如故老问题,即原来 offline 数据集没办法通过 imitation learning 师法学习领有长程念念维和改日展望的智力。
高飞:格外于 MPC 中的 P ( 展望 ) 。好多东谈主认为 MPC 中的模子即是机器东谈主,可以把其他所有气象都放到 model 里,也会往前展望。
王建明:我可以领悟 MPC 可能是用一个方程来 predict,而宇宙模子其实是用一个生成式次序来 predict?
高飞:我认为 MPC 内部的 M 如何来,其实是工程师跟科学家去作念了空洞,而宇宙模子这种数据驱动即是用 AI 我方去探索。践诺上如果咱们用更多 AI,以后就可以不需要那么多科学家去空洞了。
王建明:那 predict 的下一个气象是什么样的?
金鑫:比如说一个长程任务,我要联想出来背面如何作念,就格外于把它空洞成一个一个 long horizon 问题,当今最难搞定的即是长程任务,有了宇宙模子之后,长程任务的领悟、展望智力就能很好地赋予后续的 different policy 去学习。
什么是无东谈主机的空间智能?
王建明:王博士您主要作念全身适度(Whole-Body Control, WBC),把视觉引入到 Whole-Body Control,在这个场合,您以为简略到什么时辰点可能会收场一个看上去还可以的通用适度器。
王靖博:如果说在仿真器里不作念一些力矩的适度,要收场一个还可以的适度器不难,但会有精度的均衡,可能不太会像确凿机械臂一样指哪打哪。
如果在真实宇宙里,要收场这件事一方面是算法的问题,一方面也看硬件,在上海 AI LAB 有格外多不同型号的东谈主形机器东谈主,相通的算法跑出来好多不同的论断,我以为硬件智力的上限决定了什么时候能取得可以的得益。
王建明:高淳厚您刚给咱们展示了多机的集群,包括多无东谈主机的协同,这是否有点像集群学习?
高飞:集群学习具体的界说我不太熟,然则咱们会秉承纠合学习、散布蓄意的形态,学习、闇练的时候在一齐,work 的时候各作念各的,然则大众都有一个共同的筹商。
王建明:三位嘉宾共同探讨的另一个共同点可能还有空间智能,包括无东谈主机的空间感知、VLR(Vision-Language Reconstruction)。空间智能的界说也很大,如何领悟无东谈主机边界的空间智能呢?
高飞:我以为空间智能的界说不是尽头暴露。感知是 robotics 格外进犯的一块,上一代 robotics 发展快的一个根源在于 SLAM(即时定位与舆图构建)本事,当今好多作念 SLAM 本事都转行作念空间智能了。不是换了个主意,而是好多本事合手续复用,可能当今用的更多的是 learning based 次序像 VGGT 或者其他 grounding model,但大众的目标可能雷同,都为了获取机器东谈主对空间几何、 texture,以及各种信息的一种空洞和表征。
原来一些 SLAM 作念不了的事情,可能需要 AI 本事进一步建模,之后进一步去作念 learning,是以才有空间智能的主意。
王靖博:我嗅觉大众对 Semantic(语义)的关注变多了,Semantic 不仅包括物体的类别,用途,交互的神态,还包括物体中 Semantic 的可能性变多了。
王建明:空间物体的关系,语义信息等等都还处于比较早期的气象。
金鑫:比如从第一滑左边运转数第四个瓶子,雷同于这种比较复杂的空间关系的形容关于机器东谈主来讲就比较难过,尤其是关于作念机器东谈主大脑的公司来说很难收场。这种空间智力即所谓的空间智能对东谈主来讲很浅易,然则机器东谈主还不熟练。
王建明:搞定空间智能问题是缺数据吗?
金鑫:就像刚王淳厚说的,畴昔大众对这种 semantic 没那么明锐,也不会有这方面相应的解法跟数据。
高飞:我领悟可能就像金淳厚说的,大脑公司面对的问题是因为大模子的数据来源于言语模态,本人其空间关系就很弱,是以大模子在空间关系上就会出现幻觉。然则传统的 SLAM 在这块很强,是以要构建稀薄的数据集把这些信息对都。
王建明:当今具身智能好多基座,VLM 中的" Vision "基本上是 2D 的,多模态本人在 3D 模态还比较欠缺,是以当今反倒是那些作念 SLAM 的公司会强调把 3D 模态补足,然后最终在看如何搞定空间智能的问题。
金鑫:是的,是以咱们作念 driver VLA 就加了 visual COT 的念念路,亦然相通的道理道理,给了 depth 等更多信息。
具身智能创业,奔赴星辰大海如故不务空名?
王建明:接下来咱们聊聊三位淳厚在落地上的期待吧,比如像高淳厚作念无东谈主机诳骗,您嗅觉在这个场合,改日咱们现实生存中能看到什么类型的诳骗?
高飞:我认为拉万古辰跨度,咱们会在生存中看到各种各样的无东谈主机,这是我一直以来的联想。然则这个时辰可能比较远,二十年后咱们往向窗外,如果莫得各种无东谈主机在作念高空功课,举例送货送东谈主,那详情是咱们这帮学者、创业者和从业者的失败。
我以为好多时候咱们的本事照旧 almost there 了,再努致力于就能打破,但要让它 work, 这一步总要有东谈主去作念,这其中有好多事情可以作念,具体的落地经由详情很倒霉,咱们正资格这种倒霉。
王建明:无东谈主机照旧资格过一波诳骗潮,以大疆为主的硬件公司的迭代,到当今这个阶段更多要用无东谈主机来搞定一些现实问题,而不单是把它作为一个建立。
高飞:可能好落地的诳骗照旧作念罢了,但好作念的事情其实在所有这个词空中功课的生态里不到 1%,比如当今大众熟知的航拍、农业植保机,更多的就不一定说得出来了。然则咱们行业里仍有各种事情可以作念,举例发生了失火去高空熄灭、高空清洗幕墙、无东谈主机送货、载东谈主不雅光,这些大众讲了很久,但还莫得收场。
王建明:为什么还一直充公场?问题是什么?
高飞:在我看来详情有好多卡点,最大的一个问题即是不够智能。或者说某个行业的无东谈主机需要 rule- based,要写好多规定,就需要好多科学家、工程师夙兴夜处地用东谈主力去空洞,这件事就很难,也很难算过来账。如果花了那么大代价开导物流无东谈主机,临了还不如外卖小哥送得低廉,那么道理就不大。然则 AI 的发展让咱们看到了但愿。
机器东谈主也雷同,当今好多东谈主形机器东谈主作念的事情,其实工场里一个工业活水化建立也能作念,可能成本更低,但机器东谈主给东谈主的期待不是一个活水化建立,而是机器东谈主到手了以后什么事情都能作念,我认为天外端、地上、水下都有雷同的逻辑。
王建明:是以如故 learning base 的适度范式的改动,也可以增多无东谈主机的诳骗场景。
高飞:这个阶段用 AI 伙同大模子,不仅适度、更多是决策,而决策是最难的问题,我认为咱们可能看到了具备通用泛化搞定问题智力的基座模子的但愿。
王建明:金淳厚您如何看待所有这个词具身智能的落地诳骗?
金鑫:我我方也在宁波作念一些产业化的事情,刚高淳厚讲到不但愿再回到工业自动化的阶段。但当今反倒是工业自动化的需求格外张皇,他们但愿把机器东谈主尽快用起来,这即是其中一个很大的 gap。高校淳厚创业,本事东谈主员创业,尤其是这种新兴本事创业,他们脑海中的想法跟现实宇宙发展存在差距,你想作念的是个飞机,可能工场需要的即是一个自行车。
王建明:王博士,你主要作念双足东谈主形的适度,当今这块的硬件照旧相对比较熟练了,那么离最终的诳骗落地您如何看?
王靖博:本年机器东谈主边界让大众看到了一些跟提高操作智力无关的事情,举例巡检、舞蹈等等,大众貌似用一米四以下的机器东谈主就能看起来可以了,但最终目标如故要让机器东谈主去干活,在颖异活这件事上,硬件的迭代我以为还不太明晰,非论是东谈主形机器东谈主的负载智力、在高负载下的均衡性、通顺的矫健性,还有理智手的决策,其实还有格外多的挑战。是以我以为这个事情还有很远的路要走。
王建明:在中国创业面对一个很大的问题即是最终要去搞定一个雄伟的问题,但又不得不面对短期贸易化的矛盾。比较较好意思国创业公司,前段时辰我看到 Scale AI 最新一轮的估值是 140 亿好意思金,换成东谈主民币即是近千亿的估值。那咱们回头看国内的创业公司,不管是从融资边界如故估值边界上来说,你们认为最终通用机器东谈主在中好意思两国的估值体系下会是什么样?一个像 Scale AI 可能就融了三轮良友,估值照旧到 140 亿好意思金,投资东谈主也没期待它能搞定什么现实具体问题,另一方面中国创业公司在几亿东谈主民币估值下,又要去奔赴星辰大海又要不务空名贸易化,作为创业者的高淳厚您如何看?
高飞:起原这个估值我详情看不懂,只可说我无法领悟。那从创业者躬行体会,我既然在中国就走好中国旅途。我认为接下来是要道的一代,每一代东谈主都有每一代东谈主的劳动,临了谁能把事情作念成最进犯,而不是看谁估值更高。
金鑫:我也尽头欢喜高淳厚刚刚的话。估值背后笼罩的东西太多,同期老本的力量太大了。可能背后的老本并不敬佩这件事一定能作念成,只是说要把场子热起来。我以为从中国角度来讲,从 DeepSeek 之后,中国的投资东谈主对本事的耐性多了一些,大众能看到这代年青东谈主如故能作念出来东西。
王靖博:所有这个词行业或者说科研是一场马拉松,会有一轮又一轮的波涛,当今可能为了炒热度,但下一轮确凿波涛来了之后,大众情切、筹议的问题也不一样了。对一家公司的评估体现着估值上可能会有新的改不雅。
不雅众发问要领:合成如故真机数据更灵验,如故要看任务,不是真机数据就一定最合理。
不雅众发问:既然大众谈到现时的本事道路还莫得贬抑,为什么还有这样多学者下场创业,他们创业的动机是什么?是因为学术界的资源不够来作念这件事,如故纯正想蹭这波老本的红利?
高飞:关于我来说,详情不是为了蹭老本红利,没什么好蹭的。如果你创过业,就会知谈这内部要承担若干压力,有若干倒霉要资格。那为什么还要创业呢,我以为碰巧要在本事莫得贬抑的时候创业,否则等贬抑了,契机就怕就不再属于你了。关于我而言, 5 年前我详情不会创业的,因为莫得满盈的变量可以匡助我把这件事情作念成,而当今有这个契机,那就 have a try,and try my best,即是这样。
不雅众发问:研究机器东谈主数据的问题,当今机器东谈主数据数目相对较少,现存三种次序,一种次序是真机采集,但真机比较腾贵,而且机器东谈主骨子会迭代,如果想要通过真机回流数据的话,其实迭代了之后再诳骗亦然个问题。第二种神态是通过仿真,但仿真存在 simulation gap,不外仿真会相对低廉。第三种神态是我最近传闻是有用视频生成模子来生成愈加广阔的数据,就能弥补其中的舛错,然则这种神态会比较耗算力。想问一下你们以为以后的数据获取的场合会是哪一种?或者是如何去伙同?
金鑫:这个其实筹议过好屡次,数据金字塔,最底下的即是互联网数据或者 video 的数据,这个量也最大,获取的成本也最低。然则可能只可撑合手作念一些 pretraining,就比如一些 foundation model,用这部分的 video 让它去学是没问题的。再往上即是合成数据合成出来的高质地数据,real 跟 SIM 之间的 gap 比较小,能够撑合手作念更多的任务,提高泛化性。最上头是真机的数据,遥操的数据。
但合成数据也分各种合成数据,分无效的一些合成数据,有价值的一些合成数据,关于物理真实更进犯的一些合成数据,底下又细分了好多。关于 video 亦然一样,对 video 到底是用东谈主的 human video 去训它,如故说机器东谈主的一些 video 去训它,如故说其他愈加 in general 的 video 去训它?这个也不太一样。是以我以为现时还在探索哪部分数据更灵验的阶段。我听过一个比例是 721,即是 70% 的 Web data video data, 20% 的 synthetic data,然后 10% 的真机数据,然则 who knows?
不雅众发问:当今平直用文生视频、图生视频这种视频生成模子平直生成机器东谈主的数据,相似度其实能够达到 88%,然则会比较耗卡、耗算力,这种神态你们如何看?星河通用他们是 99% 都用合成数据,就透澈占合成数据那一片,是以想看一下你们的看法。
金鑫:耗卡这件事,有钱就可以作念,主要如故看能弗成生成灵验的数据。但一定要合成出来的 video 才有后果吗,也不一定。当今的 latent space 的生成亦然一种生成决策,又回到刚刚阿谁老问题,即是 word model for VLA 或者 word model for embody 阿谁 word model 输出来的东西一定是要 video 吗?也不一定。
不雅众发问:视频生成模子平直生成机器东谈主的数据,会比仿确凿更接近真实。
金鑫:仿真跟生成要分得这样开吗,可能仿确凿即是原来 CAD 搓出来的 asset,就像群核智能,他们当今手内部有好多钞票,亦然他们我方最大的护城河,然则当今生成出来的内容可能也不见得会比那种手搓出来的要差。我以为主要如故看你什么样的数据灵验,或者说哪些是针对你要搞定的阿谁任务有价值,这部分数据该如何去抒发?是用 video 吗?如故用其他的 modality,或者平直无谓抒发,平直即是一个空洞的 latent 就满盈了,如故 case by case。
王靖博:我比较欢喜金淳厚的抒发。哪部分数据最灵验如故要看任务灾难预测系统小说直播,不是真机数据就一定最合理。像我作念足式适度,其中最基本的 locomotion,我可能都莫得 positive examples,我是在一个纯仿真环境里,莫得任何的实调数据一样可以把这件事作念成,因为我的任务不需要那么多 contact reach 的东西。我只有能学到从各种各样颠仆的环境内部如何让机器东谈主收复矫健就好,其实是纯依赖任务的一种神色。是以我以为筹议这个事之前,其实更进犯的是看你需要作念什么任务,然后找阿谁任务最 scaling up 的一种神态去获取数据。「雷峰网」


