本文作者:nasi

高清视频直播系统机构

nasi 前天 4
高清视频直播系统机构摘要: 钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业...
钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业快速搭建稳定高效的直播平台。

高清视频直播系统机构

Yume 的中枢策画

Yume 的中枢策画在于三个层面:

高清视频直播系统机构

1. 数据:通过开源和引入 Sekai 数据集试验(覆盖各人 750 个城市、累计时长达 5000 小时的高质地第一东说念主称(POV)视频数据)。

此外,Yume1.0 引入了一种量化相机轨迹方法,粗略将实践全国的畅通移动为闹翻的键盘按键。

同期 Yume1.5 稀奇引入了高质地的 T2V 合成数据集,何况为了完毕"事件生成"(如"蓦然出现幽魂"),团队构建了一个成心的事件数据集。

东说念主工构造:招募志愿者编写涵盖闲居、科幻、玄幻、天气等四大类的事件态状,何况用这些事件合成数据集。

VLM 重标注:哄骗 InternVL3-78B 对 Sekai 数据进行二次标注。将底本态状配景的 Caption 改写为温雅动作和事件的 Caption,完毕教导词变化。

2. 架构:提议了 TSCM 等架构,将历史帧在时候、空间和通说念三个维度进行压缩,将长高下文推理的复杂度凭空。

3. 交互:构建了"文本 + 键盘"的双重死心体系。用户不仅不错通过 WASD 键死心漫游,还能通过当然讲话及时裁剪环境事件。

时空信说念集中建模(TSCM)

Yume1.5 的技艺中枢在于贬责长视频生成中的牵挂与计较矛盾,提议了 TSCM 架构。

高清视频直播系统机构

1. 高下文爆炸问题

方法的 Self-Attention 机制计较复杂渡过高。

( 1 ) 存储扫数历史 Token 的 KV Cache 会蓦然蹧跶 GPU 显存。

( 2 )   每一帧的生成时候会跟着历史长度线性增多,无法满足及时交互需求。

2. TSCM 的压缩机制

TSCM 通过将历史信息分流处理,奥妙地消灭了上述瓶颈。它包含两个并行的压缩流:时空压缩和通说念压缩。

时空压缩:

这一流主要崇敬保留视觉细节,通过对历史帧进行不同经由的时空下采样来减少 Token 数目。

这个方法参考了 FramePack 的策画:近期的牵挂败露,远期的牵挂蒙眬。当先对历史帧数按照每 32 帧进行随即的时序采样,以压缩时序信息,然后奉行空间压缩。

高清视频直播系统机构

这种自相宜战略,使得模子在温雅刻下帧生成时,粗略以极低的代价造访到很久往常的高下文信息。

通说念压缩:

诚然时空压缩减少了 Token 数目,但在处理超长序列时仍显劳作。为此,Yume1.5 引入了通说念压缩,调解线性醒眼力机制。

通说念压缩:将历史帧的通说念维度从方法维度(如 1024 或 768)强制压缩至 96。

线性醒眼力:线性醒眼力的计较量更依赖于通说念维度,由于通说念被压缩到了 96,这一项变得极度小。这使得模子险些以恒定的计较资源处理增长的历史信息。

特征和会:

DiT 模块里面策画了的和会层,将时空压缩索要的特征与通说念压缩索要的特征进行拼接和和会。

3. 推理与试验加快战略

高清视频直播系统机构

Yume1.0 和 Yume1.5 在推理加快方面进行了优化。Yume1.0 引入了OSV(一种招架蒸馏方法)以加快扩散模子的采样。

Yume1.5 引入了类似于Self-Forcing的试验战略。在微调阶段,不再给模子输入真的的上一帧,而是让模子先生成上一帧,再将其行为条目输入来预测刻下帧。

与Self-Forcing不同的是,Yume1.5 引入了 TSCM 替换了滑动窗口的 kv cache 以得到全局的高下文输入 , 这种方法试验极度高效,试验长度为 64 帧即可外推到近半分钟的视频。

教导词解耦

为了提高推理成果,Yume1.5 并未将扫数文本信息送入编码器。它创造性地将教导词解耦为事件态状和动作态状。

动作态状:如"上前走"、"向左转"。这类态状词汇量有限且固定。系统事先计较并缓存了这些动作的 T5Embedding,无需访佛进行极重的文本编码计较。为了让用户的键盘操作粗略精准死心视角,Yume1.5 界说了一套详备的动作词汇表。

高清视频直播系统机构

事件态状:态状生成信息。这类态状仅在运行化或用户输入新指示时通过 T5 编码器处理一次。

这种解耦与缓存战略,权贵凭空了 T5 文本编码器在及时推理中的计较占比。

性能评测

高清视频直播系统机构

1. 指示奴隶:Yume1.5 的 IF 得分高达 0.836。这径直解说了死心方法的有用性。

2. 生成速率:从 Yume1.0 的 572 秒凭空至 8 秒。

消融盘问:

TSCM 的有用性:移除 TSCM 改用简便的空间压缩后,指示奴隶智力从 0.836 降至 0.767。此外,TSCM 使得自总结推理时候随高下文增多保握踏实(在 8 个 block 后每步推理时候恒定)。

高清视频直播系统机构

高清视频直播系统机构

全面开源

Yume 的模子权重、推理代码、试验代码以及 Sekai 数据集一齐开源。

为了便捷使用和测试 Yume-5B,Github 主页提供了 Windows 下的一键启动决策来运行 Web Demo。

只需运行 run_oneclick_debug.bat,然后在浏览器中灵通骄横的 URL 即可。该法子已在 RTX4090Laptop GPU(16GB)上测试通过。

局限性

物理逻辑缺失:模子短缺物理引擎撑握,偶发因果不实(如倒行)及长周期细节漂移,TSCM 仅起到缓解作用。

模子范畴量度:刻下使用 5B 模子息争及时性。为纰漏瓶颈(如迈向 30B+ 范畴),将来将继承 MoE 架构以兼顾高性能与低蔓延。

瞻望

Yume 和数据集的开源,渴望能加快全国模子的盘问。跟着技艺的迭代,咱们有事理深信,在不远的将来,分离"真的"与"生成"的领域将变得愈发蒙眬。

论文衔接:https://arxiv.org/pdf/2512.22096

开源代码:https://github.com/stdstu12/YUME

主页衔接:https://stdstu12.github.io/YUME-Project

数据衔接:https://github.com/Lixsp11/sekai-codebase  

一键三连「点赞」「转发」「谨防心」

宽容在指摘区留住你的念念法!

—  完  —

咱们正在招聘又名眼疾手快、温雅 AI 的学术裁剪实习生  � �

感敬爱的小伙伴宽容温雅 � �  了解细目

高清视频直播系统机构

� � 点亮星标 � �

科技前沿施展逐日见高清视频直播系统机构

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享