Yume 的中枢设想
Yume 的中枢设想在于三个层面:
1. 数据:通过开源和引入 Sekai 数据集锻练(隐讳寰球 750 个城市、累计时长达 5000 小时的高质料第一东说念主称(POV)视频数据)。
此外,Yume1.0 引入了一种量化相机轨迹要领,或者将践诺天下的表露调养为闹翻的键盘按键。
同期 Yume1.5 稀奇引入了高质料的 T2V 合成数据集,而况为了杀青"事件生成"(如"骤然出现幽魂"),团队构建了一个挑升的事件数据集。
东说念主工构造:招募志愿者编写涵盖平日、科幻、玄幻、天气等四大类的事件状貌,而况用这些事件合成数据集。
VLM 重标注:诈欺 InternVL3-78B 对 Sekai 数据进行二次标注。将蓝本状貌布景的 Caption 改写为随和动作和事件的 Caption,杀青辅导词变化。
2. 架构:提议了 TSCM 等架构,将历史帧在时候、空间和通说念三个维度进行压缩,将长高下文推理的复杂度臆造。
3. 交互:构建了"文本 + 键盘"的双重限度体系。用户不仅不错通过 WASD 键限度漫游,还能通过天然谈话及时剪辑环境事件。
时空信说念连合建模(TSCM)
Yume1.5 的工夫中枢在于处理长视频生成中的驰念与贪图矛盾,提议了 TSCM 架构。
1. 高下文爆炸问题
圭臬的 Self-Attention 机制贪图复杂渡过高。
( 1 ) 存储所有历史 Token 的 KV Cache 会顷刻间销耗 GPU 显存。
( 2 ) 每一帧的生成时候会跟着历史长度线性加多,无法快活及时交互需求。
2. TSCM 的压缩机制
TSCM 通过将历史信息分流处理,玄机地躲闪了上述瓶颈。它包含两个并行的压缩流:时空压缩和通说念压缩。
时空压缩:
这一流主要讲求保留视觉细节,通过对历史帧进行不同进度的时空下采样来减少 Token 数目。
这个要领参考了 FramePack 的设想:近期的驰念了了,远期的驰念蒙眬。率先对历史帧数按照每 32 帧进行立时的时序采样,以压缩时序信息,然后实施空间压缩。
这种自稳妥计策,使得模子在随和现时帧生成时,或者以极低的代价探听到很久往常的高下文信息。
通说念压缩:
天然时空压缩减少了 Token 数目,但在处理超长序列时仍显穷苦。为此,Yume1.5 引入了通说念压缩,合作线性提防力机制。
通说念压缩:将历史帧的通说念维度从圭臬维度(如 1024 或 768)强制压缩至 96。
线性提防力:线性提防力的贪图量更依赖于通说念维度,由于通说念被压缩到了 96,这一项变得特殊小。这使得模子简直以恒定的贪图资源处理增长的历史信息。
特征交融:
DiT 模块里面设想了的交融层,将时空压缩索取的特征与通说念压缩索取的特征进行拼接和交融。
3. 推理与锻练加快计策
Yume1.0 和 Yume1.5 在推理加快方面进行了优化。Yume1.0 引入了OSV(一种造反蒸馏要领)以加快扩散模子的采样。
Yume1.5 引入了相同于Self-Forcing的锻练计策。在微调阶段,不再给模子输入真的的上一帧,而是让模子先生成上一帧,再将其手脚条目输入来预测现时帧。
与Self-Forcing不同的是,Yume1.5 引入了 TSCM 替换了滑动窗口的 kv cache 以得到全局的高下文输入 , 这种形势锻练特殊高效,锻练长度为 64 帧即可外推到近半分钟的视频。
辅导词解耦
为了提高推理后果,Yume1.5 并未将所有文本信息送入编码器。它创造性地将辅导词解耦为事件状貌和动作状貌。
动作状貌:如"上前走"、"向左转"。这类状貌词汇量有限且固定。系统事前贪图并缓存了这些动作的 T5Embedding,无需重叠进行极重的文本编码贪图。为了让用户的键盘操作或者精准限度视角,Yume1.5 界说了一套可贵的动作词汇表。
事件状貌:状貌生成信息。这类状貌仅在运涟漪或用户输入新指示时通过 T5 编码器处理一次。
这种解耦与缓存计策,显贵臆造了 T5 文本编码器在及时推理中的贪图占比。
性能评测
1. 指示跟班:Yume1.5 的 IF 得分高达 0.836。这告成解释了限度要领的灵验性。
2. 生成速率:从 Yume1.0 的 572 秒镌汰至 8 秒。
消融筹谋:
TSCM 的灵验性:移除 TSCM 改用肤浅的空间压缩后,指示跟班智商从 0.836 降至 0.767。此外,TSCM 使得自回想推理时候随高下文加多保抓相识(在 8 个 block 后每步推理时候恒定)。
全面开源
Yume 的模子权重、推理代码、锻练代码以及 Sekai 数据集一起开源。
为了便捷使用和测试 Yume-5B,Github 主页提供了 Windows 下的一键启动决议来运行 Web Demo。
只需运行 run_oneclick_debug.bat,然后在浏览器中洞开清晰的 URL 即可。该要领已在 RTX4090Laptop GPU(16GB)上测试通过。
局限性
物理逻辑缺失:模子短少物理引擎支抓,偶发因果诞妄(如倒行)及长周期细节漂移,TSCM 仅起到缓解作用。
模子范畴衡量:现时使用 5B 模子调和及时性。为冲破瓶颈(如迈向 30B+ 范畴),改日将弃取 MoE 架构以兼顾高性能与低延伸。
预测
Yume 和数据集的开源,渴望能加快天下模子的筹谋。跟着工夫的迭代,咱们有根由确信,在不远的将来,分离"真的"与"生成"的界限将变得愈发蒙眬。
论文联接:https://arxiv.org/pdf/2512.22096
开源代码:https://github.com/stdstu12/YUME
主页联接:https://stdstu12.github.io/YUME-Project
数据联接:https://github.com/Lixsp11/sekai-codebase
一键三连「点赞」「转发」「戒备心」
迎接在指摘区留住你的念念法!
— 完 —
咱们正在招聘又名眼疾手快、随和 AI 的学术剪辑实习生 � �
感兴致的小伙伴迎接随和 � � 了解笃定
� � 点亮星标 � �
科技前沿说明逐日见宁波互动会议直播系统












