本文作者:nasi

宁波互动会议直播系统

nasi 昨天 4
宁波互动会议直播系统摘要: 钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业...
钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业快速搭建稳定高效的直播平台。

宁波互动会议直播系统

Yume 的中枢设想

Yume 的中枢设想在于三个层面:

宁波互动会议直播系统

1. 数据:通过开源和引入 Sekai 数据集锻练(隐讳寰球 750 个城市、累计时长达 5000 小时的高质料第一东说念主称(POV)视频数据)。

此外,Yume1.0 引入了一种量化相机轨迹要领,或者将践诺天下的表露调养为闹翻的键盘按键。

同期 Yume1.5 稀奇引入了高质料的 T2V 合成数据集,而况为了杀青"事件生成"(如"骤然出现幽魂"),团队构建了一个挑升的事件数据集。

东说念主工构造:招募志愿者编写涵盖平日、科幻、玄幻、天气等四大类的事件状貌,而况用这些事件合成数据集。

VLM 重标注:诈欺 InternVL3-78B 对 Sekai 数据进行二次标注。将蓝本状貌布景的 Caption 改写为随和动作和事件的 Caption,杀青辅导词变化。

2. 架构:提议了 TSCM 等架构,将历史帧在时候、空间和通说念三个维度进行压缩,将长高下文推理的复杂度臆造。

3. 交互:构建了"文本 + 键盘"的双重限度体系。用户不仅不错通过 WASD 键限度漫游,还能通过天然谈话及时剪辑环境事件。

时空信说念连合建模(TSCM)

Yume1.5 的工夫中枢在于处理长视频生成中的驰念与贪图矛盾,提议了 TSCM 架构。

宁波互动会议直播系统

1. 高下文爆炸问题

圭臬的 Self-Attention 机制贪图复杂渡过高。

( 1 ) 存储所有历史 Token 的 KV Cache 会顷刻间销耗 GPU 显存。

( 2 )   每一帧的生成时候会跟着历史长度线性加多,无法快活及时交互需求。

2. TSCM 的压缩机制

TSCM 通过将历史信息分流处理,玄机地躲闪了上述瓶颈。它包含两个并行的压缩流:时空压缩和通说念压缩。

时空压缩:

这一流主要讲求保留视觉细节,通过对历史帧进行不同进度的时空下采样来减少 Token 数目。

这个要领参考了 FramePack 的设想:近期的驰念了了,远期的驰念蒙眬。率先对历史帧数按照每 32 帧进行立时的时序采样,以压缩时序信息,然后实施空间压缩。

宁波互动会议直播系统

这种自稳妥计策,使得模子在随和现时帧生成时,或者以极低的代价探听到很久往常的高下文信息。

通说念压缩:

天然时空压缩减少了 Token 数目,但在处理超长序列时仍显穷苦。为此,Yume1.5 引入了通说念压缩,合作线性提防力机制。

通说念压缩:将历史帧的通说念维度从圭臬维度(如 1024 或 768)强制压缩至 96。

线性提防力:线性提防力的贪图量更依赖于通说念维度,由于通说念被压缩到了 96,这一项变得特殊小。这使得模子简直以恒定的贪图资源处理增长的历史信息。

特征交融:

DiT 模块里面设想了的交融层,将时空压缩索取的特征与通说念压缩索取的特征进行拼接和交融。

3. 推理与锻练加快计策

宁波互动会议直播系统

Yume1.0 和 Yume1.5 在推理加快方面进行了优化。Yume1.0 引入了OSV(一种造反蒸馏要领)以加快扩散模子的采样。

Yume1.5 引入了相同于Self-Forcing的锻练计策。在微调阶段,不再给模子输入真的的上一帧,而是让模子先生成上一帧,再将其手脚条目输入来预测现时帧。

与Self-Forcing不同的是,Yume1.5 引入了 TSCM 替换了滑动窗口的 kv cache 以得到全局的高下文输入 , 这种形势锻练特殊高效,锻练长度为 64 帧即可外推到近半分钟的视频。

辅导词解耦

为了提高推理后果,Yume1.5 并未将所有文本信息送入编码器。它创造性地将辅导词解耦为事件状貌和动作状貌。

动作状貌:如"上前走"、"向左转"。这类状貌词汇量有限且固定。系统事前贪图并缓存了这些动作的 T5Embedding,无需重叠进行极重的文本编码贪图。为了让用户的键盘操作或者精准限度视角,Yume1.5 界说了一套可贵的动作词汇表。

宁波互动会议直播系统

事件状貌:状貌生成信息。这类状貌仅在运涟漪或用户输入新指示时通过 T5 编码器处理一次。

这种解耦与缓存计策,显贵臆造了 T5 文本编码器在及时推理中的贪图占比。

性能评测

宁波互动会议直播系统

1. 指示跟班:Yume1.5 的 IF 得分高达 0.836。这告成解释了限度要领的灵验性。

2. 生成速率:从 Yume1.0 的 572 秒镌汰至 8 秒。

消融筹谋:

TSCM 的灵验性:移除 TSCM 改用肤浅的空间压缩后,指示跟班智商从 0.836 降至 0.767。此外,TSCM 使得自回想推理时候随高下文加多保抓相识(在 8 个 block 后每步推理时候恒定)。

宁波互动会议直播系统

宁波互动会议直播系统

全面开源

Yume 的模子权重、推理代码、锻练代码以及 Sekai 数据集一起开源。

为了便捷使用和测试 Yume-5B,Github 主页提供了 Windows 下的一键启动决议来运行 Web Demo。

只需运行 run_oneclick_debug.bat,然后在浏览器中洞开清晰的 URL 即可。该要领已在 RTX4090Laptop GPU(16GB)上测试通过。

局限性

物理逻辑缺失:模子短少物理引擎支抓,偶发因果诞妄(如倒行)及长周期细节漂移,TSCM 仅起到缓解作用。

模子范畴衡量:现时使用 5B 模子调和及时性。为冲破瓶颈(如迈向 30B+ 范畴),改日将弃取 MoE 架构以兼顾高性能与低延伸。

预测

Yume 和数据集的开源,渴望能加快天下模子的筹谋。跟着工夫的迭代,咱们有根由确信,在不远的将来,分离"真的"与"生成"的界限将变得愈发蒙眬。

论文联接:https://arxiv.org/pdf/2512.22096

开源代码:https://github.com/stdstu12/YUME

主页联接:https://stdstu12.github.io/YUME-Project

数据联接:https://github.com/Lixsp11/sekai-codebase  

一键三连「点赞」「转发」「戒备心」

迎接在指摘区留住你的念念法!

—  完  —

咱们正在招聘又名眼疾手快、随和 AI 的学术剪辑实习生  � �

感兴致的小伙伴迎接随和 � �  了解笃定

宁波互动会议直播系统

� � 点亮星标 � �

科技前沿说明逐日见宁波互动会议直播系统

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享