Yume 的中枢联想
Yume 的中枢联想在于三个层面:
1. 数据:通过开源和引入 Sekai 数据集查验(隐私大家 750 个城市、累计时长达 5000 小时的高质料第一东谈主称(POV)视频数据)。
此外,Yume1.0 引入了一种量化相机轨迹秩序,不祥将执行寰球的领路诊疗为翻脸的键盘按键。
同期 Yume1.5 非凡引入了高质料的 T2V 合成数据集,况兼为了达成"事件生成"(如"顿然出现阴魂"),团队构建了一个挑升的事件数据集。
东谈主工构造:招募志愿者编写涵盖闲居、科幻、玄幻、天气等四大类的事件描摹,况兼用这些事件合成数据集。
VLM 重标注:诈欺 InternVL3-78B 对 Sekai 数据进行二次标注。将蓝本描摹布景的 Caption 改写为暖和动作和事件的 Caption,达成请示词变化。
2. 架构:提议了 TSCM 等架构,将历史帧在时代、空间和通谈三个维度进行压缩,将长高下文推理的复杂度诽谤。
3. 交互:构建了"文本 + 键盘"的双重截止体系。用户不仅不错通过 WASD 键截止漫游,还能通过当然讲话及时剪辑环境事件。
时空信谈合股建模(TSCM)
Yume1.5 的手艺中枢在于措置长视频生成中的操心与蓄意矛盾,提议了 TSCM 架构。
1. 高下文爆炸问题
圭臬的 Self-Attention 机制蓄意复杂渡过高。
( 1 ) 存储通盘历史 Token 的 KV Cache 会一刹破钞 GPU 显存。
( 2 ) 每一帧的生成时代会跟着历史长度线性加多,无法欣慰及时交互需求。
2. TSCM 的压缩机制
TSCM 通过将历史信息分流处理,好意思妙地藏匿了上述瓶颈。它包含两个并行的压缩流:时空压缩和通谈压缩。
时空压缩:
这一流主要慎重保留视觉细节,通过对历史帧进行不同过程的时空下采样来减少 Token 数目。
这个秩序参考了 FramePack 的联想:近期的操心明晰,远期的操心费解。领先对历史帧数按照每 32 帧进行就地的时序采样,以压缩时序信息,然后履行空间压缩。
这种自相宜战略,使得模子在暖和现时帧生成时,不祥以极低的代价看望到很久畴昔的高下文信息。
通谈压缩:
诚然时空压缩减少了 Token 数目,但在处理超长序列时仍显困难。为此,Yume1.5 引入了通谈压缩,调解线性能干力机制。
通谈压缩:将历史帧的通谈维度从圭臬维度(如 1024 或 768)强制压缩至 96。
线性能干力:线性能干力的蓄意量更依赖于通谈维度,由于通谈被压缩到了 96,这一项变得至极小。这使得模子险些以恒定的蓄意资源处理增长的历史信息。
特征交融:
DiT 模块里面联想了的交融层,将时空压缩索求的特征与通谈压缩索求的特征进行拼接和交融。
3. 推理与查验加快战略
Yume1.0 和 Yume1.5 在推理加快方面进行了优化。Yume1.0 引入了OSV(一种抗争蒸馏秩序)以加快扩散模子的采样。
Yume1.5 引入了相通于Self-Forcing的查验战略。在微调阶段,不再给模子输入实在的上一帧,而是让模子先生成上一帧,再将其看成条目输入来预测现时帧。
与Self-Forcing不同的是,Yume1.5 引入了 TSCM 替换了滑动窗口的 kv cache 以获取全局的高下文输入 , 这种步地查验至极高效,查验长度为 64 帧即可外推到近半分钟的视频。
请示词解耦
为了提高推理成果,Yume1.5 并未将通盘文本信息送入编码器。它创造性地将请示词解耦为事件描摹和动作描摹。
动作描摹:如"上前走"、"向左转"。这类描摹词汇量有限且固定。系统事先蓄意并缓存了这些动作的 T5Embedding,无需叠加进行艰巨的文本编码蓄意。为了让用户的键盘操作不祥精准截止视角,Yume1.5 界说了一套详备的动作词汇表。
事件描摹:描摹生成信息。这类描摹仅在运行化或用户输入新指示时通过 T5 编码器处理一次。
这种解耦与缓存战略,权贵诽谤了 T5 文本编码器在及时推理中的蓄意占比。
性能评测
1. 指示随同:Yume1.5 的 IF 得分高达 0.836。这平直讲解了截止秩序的有用性。
2. 生成速率:从 Yume1.0 的 572 秒诽谤至 8 秒。
消融研究:
TSCM 的有用性:移除 TSCM 改用不祥的空间压缩后,指示随同才调从 0.836 降至 0.767。此外,TSCM 使得自追思推理时代随高下文加多保抓褂讪(在 8 个 block 后每步推理时代恒定)。
全面开源
Yume 的模子权重、推理代码、查验代码以及 Sekai 数据集一齐开源。
为了浅易使用和测试 Yume-5B,Github 主页提供了 Windows 下的一键启动决策来运行 Web Demo。
只需运行 run_oneclick_debug.bat,然后在浏览器中绽开清楚的 URL 即可。该秩序已在 RTX4090Laptop GPU(16GB)上测试通过。
局限性
物理逻辑缺失:模子短少物理引擎撑抓,偶发因果造作(如倒行)及长周期细节漂移,TSCM 仅起到缓解作用。
模子鸿沟衡量:现时使用 5B 模子息争及时性。为冲破瓶颈(如迈向 30B+ 鸿沟),异日将袭取 MoE 架构以兼顾高性能与低延伸。
瞻望
Yume 和数据集的开源,期许能加快寰球模子的研究。随脱手艺的迭代,咱们有原理折服,在不远的将来,折柳"实在"与"生成"的界限将变得愈发费解。
论文鸠合:https://arxiv.org/pdf/2512.22096
开源代码:https://github.com/stdstu12/YUME
主页鸠合:https://stdstu12.github.io/YUME-Project
数据鸠合:https://github.com/Lixsp11/sekai-codebase
一键三连「点赞」「转发」「堤防心」
迎接在驳倒区留住你的念念法!
— 完 —
咱们正在招聘别称眼疾手快、暖和 AI 的学术剪辑实习生 � �
感深嗜深嗜的小伙伴迎接暖和 � � 了解笃定
� � 点亮星标 � �
科技前沿瓦解逐日见直播系统默认封面尺寸












