Yume 的中枢想象
Yume 的中枢想象在于三个层面:
1. 数据:通过开源和引入 Sekai 数据集覆按(覆盖大家 750 个城市、累计时长达 5000 小时的高质料第一东说念主称(POV)视频数据)。
此外,Yume1.0 引入了一种量化相机轨迹门径,大要将施行寰宇的领略调遣为破损的键盘按键。
同期 Yume1.5 绝顶引入了高质料的 T2V 合成数据集,何况为了兑现"事件生成"(如"蓦地出现幽魂"),团队构建了一个成心的事件数据集。
东说念主工构造:招募志愿者编写涵盖平淡、科幻、魔幻、天气等四大类的事件形容,何况用这些事件合成数据集。
VLM 重标注:垄断 InternVL3-78B 对 Sekai 数据进行二次标注。将原来形容布景的 Caption 改写为柔和动作和事件的 Caption,兑现指示词变化。
2. 架构:提倡了 TSCM 等架构,将历史帧在时候、空间和通说念三个维度进行压缩,将长高下文推理的复杂度诽谤。
3. 交互:构建了"文本 + 键盘"的双重限度体系。用户不仅不错通过 WASD 键限度漫游,还能通过天然言语及时裁剪环境事件。
时空信说念聚合建模(TSCM)
Yume1.5 的时代中枢在于管束长视频生成中的哀痛与规划矛盾,提倡了 TSCM 架构。
1. 高下文爆炸问题
圭臬的 Self-Attention 机制规划复杂渡过高。
( 1 ) 存储系数历史 Token 的 KV Cache 会转眼滥用 GPU 显存。
( 2 ) 每一帧的生成时候会跟着历史长度线性加多,无法称心及时交互需求。
2. TSCM 的压缩机制
TSCM 通过将历史信息分流处理,玄妙地覆盖了上述瓶颈。它包含两个并行的压缩流:时空压缩和通说念压缩。
时空压缩:
这一流主要精良保留视觉细节,通过对历史帧进行不同历程的时空下采样来减少 Token 数目。
这个门径参考了 FramePack 的想象:近期的哀痛明晰,远期的哀痛轮廓。率先对历史帧数按照每 32 帧进行就地的时序采样,以压缩时序信息,然后奉行空间压缩。
这种自安妥计谋,使得模子在柔和现时帧生成时,大要以极低的代价走访到很久夙昔的高下文信息。
通说念压缩:
天然时空压缩减少了 Token 数目,但在处理超长序列时仍显吃力。为此,Yume1.5 引入了通说念压缩,互助线性细心力机制。
通说念压缩:将历史帧的通说念维度从圭臬维度(如 1024 或 768)强制压缩至 96。
线性细心力:线性细心力的规划量更依赖于通说念维度,由于通说念被压缩到了 96,这一项变得突出小。这使得模子险些以恒定的规划资源处理增长的历史信息。
特征交融:
DiT 模块里面想象了的交融层,将时空压缩索取的特征与通说念压缩索取的特征进行拼接和交融。
3. 推理与覆按加快计谋
Yume1.0 和 Yume1.5 在推理加快方面进行了优化。Yume1.0 引入了OSV(一种招架蒸馏门径)以加快扩散模子的采样。
Yume1.5 引入了类似于Self-Forcing的覆按计谋。在微调阶段,不再给模子输入真实的上一帧,而是让模子先生成上一帧,再将其算作条目输入来预测现时帧。
与Self-Forcing不同的是,Yume1.5 引入了 TSCM 替换了滑动窗口的 kv cache 以赢得全局的高下文输入 , 这种方式覆按突出高效,覆按长度为 64 帧即可外推到近半分钟的视频。
指示词解耦
为了提高推理后果,Yume1.5 并未将系数文本信息送入编码器。它创造性地将指示词解耦为事件形容和动作形容。
动作形容:如"上前走"、"向左转"。这类形容词汇量有限且固定。系统事前规划并缓存了这些动作的 T5Embedding,无需访佛进行劳苦的文本编码规划。为了让用户的键盘操作大要精准限度视角,Yume1.5 界说了一套详备的动作词汇表。
事件形容:形容生成信息。这类形容仅在运回荡或用户输入新指示时通过 T5 编码器处理一次。
这种解耦与缓存计谋,权贵诽谤了 T5 文本编码器在及时推理中的规划占比。
性能评测
1. 指示追随:Yume1.5 的 IF 得分高达 0.836。这平直解释了限度门径的灵验性。
2. 生成速率:从 Yume1.0 的 572 秒镌汰至 8 秒。
消融盘问:
TSCM 的灵验性:移除 TSCM 改用简便的空间压缩后,指示追随智力从 0.836 降至 0.767。此外,TSCM 使得自回想推理时候随高下文加多保捏褂讪(在 8 个 block 后每步推理时候恒定)。
全面开源
Yume 的模子权重、推理代码、覆按代码以及 Sekai 数据集沿途开源。
为了便捷使用和测试 Yume-5B,Github 主页提供了 Windows 下的一键启动有谋划来运行 Web Demo。
只需运行 run_oneclick_debug.bat,然后在浏览器中绽放露馅的 URL 即可。该情状已在 RTX4090Laptop GPU(16GB)上测试通过。
局限性
物理逻辑缺失:模子败落物理引擎支捏,偶发因果子虚(如倒行)及长周期细节漂移,TSCM 仅起到缓解作用。
模子限制量度:现时使用 5B 模子协调及时性。为冲破瓶颈(如迈向 30B+ 限制),改日将弃取 MoE 架构以兼顾高性能与低蔓延。
预测
Yume 和数据集的开源,守望能加快寰宇模子的盘问。跟着时代的迭代,咱们有事理笃信,在不远的将来,分袂"真实"与"生成"的范畴将变得愈发轮廓。
论文贯穿:https://arxiv.org/pdf/2512.22096
开源代码:https://github.com/stdstu12/YUME
主页贯穿:https://stdstu12.github.io/YUME-Project
数据贯穿:https://github.com/Lixsp11/sekai-codebase
一键三连「点赞」「转发」「注意心」
接待在批驳区留住你的念念法!
— 完 —
咱们正在招聘又名眼疾手快、柔和 AI 的学术裁剪实习生 � �
感好奇景仰的小伙伴接待柔和 � � 了解确定
� � 点亮星标 � �
科技前沿发达逐日见直播公会系统培训教程












