本文作者:nasi

直播公会系统培训教程

nasi 昨天 4
直播公会系统培训教程摘要: 钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业...
钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业快速搭建稳定高效的直播平台。

直播公会系统培训教程

Yume 的中枢想象

Yume 的中枢想象在于三个层面:

直播公会系统培训教程

1. 数据:通过开源和引入 Sekai 数据集覆按(覆盖大家 750 个城市、累计时长达 5000 小时的高质料第一东说念主称(POV)视频数据)。

此外,Yume1.0 引入了一种量化相机轨迹门径,大要将施行寰宇的领略调遣为破损的键盘按键。

同期 Yume1.5 绝顶引入了高质料的 T2V 合成数据集,何况为了兑现"事件生成"(如"蓦地出现幽魂"),团队构建了一个成心的事件数据集。

东说念主工构造:招募志愿者编写涵盖平淡、科幻、魔幻、天气等四大类的事件形容,何况用这些事件合成数据集。

VLM 重标注:垄断 InternVL3-78B 对 Sekai 数据进行二次标注。将原来形容布景的 Caption 改写为柔和动作和事件的 Caption,兑现指示词变化。

2. 架构:提倡了 TSCM 等架构,将历史帧在时候、空间和通说念三个维度进行压缩,将长高下文推理的复杂度诽谤。

3. 交互:构建了"文本 + 键盘"的双重限度体系。用户不仅不错通过 WASD 键限度漫游,还能通过天然言语及时裁剪环境事件。

时空信说念聚合建模(TSCM)

Yume1.5 的时代中枢在于管束长视频生成中的哀痛与规划矛盾,提倡了 TSCM 架构。

直播公会系统培训教程

1. 高下文爆炸问题

圭臬的 Self-Attention 机制规划复杂渡过高。

( 1 ) 存储系数历史 Token 的 KV Cache 会转眼滥用 GPU 显存。

( 2 )   每一帧的生成时候会跟着历史长度线性加多,无法称心及时交互需求。

2. TSCM 的压缩机制

TSCM 通过将历史信息分流处理,玄妙地覆盖了上述瓶颈。它包含两个并行的压缩流:时空压缩和通说念压缩。

时空压缩:

这一流主要精良保留视觉细节,通过对历史帧进行不同历程的时空下采样来减少 Token 数目。

这个门径参考了 FramePack 的想象:近期的哀痛明晰,远期的哀痛轮廓。率先对历史帧数按照每 32 帧进行就地的时序采样,以压缩时序信息,然后奉行空间压缩。

直播公会系统培训教程

这种自安妥计谋,使得模子在柔和现时帧生成时,大要以极低的代价走访到很久夙昔的高下文信息。

通说念压缩:

天然时空压缩减少了 Token 数目,但在处理超长序列时仍显吃力。为此,Yume1.5 引入了通说念压缩,互助线性细心力机制。

通说念压缩:将历史帧的通说念维度从圭臬维度(如 1024 或 768)强制压缩至 96。

线性细心力:线性细心力的规划量更依赖于通说念维度,由于通说念被压缩到了 96,这一项变得突出小。这使得模子险些以恒定的规划资源处理增长的历史信息。

特征交融:

DiT 模块里面想象了的交融层,将时空压缩索取的特征与通说念压缩索取的特征进行拼接和交融。

3. 推理与覆按加快计谋

直播公会系统培训教程

Yume1.0 和 Yume1.5 在推理加快方面进行了优化。Yume1.0 引入了OSV(一种招架蒸馏门径)以加快扩散模子的采样。

Yume1.5 引入了类似于Self-Forcing的覆按计谋。在微调阶段,不再给模子输入真实的上一帧,而是让模子先生成上一帧,再将其算作条目输入来预测现时帧。

与Self-Forcing不同的是,Yume1.5 引入了 TSCM 替换了滑动窗口的 kv cache 以赢得全局的高下文输入 , 这种方式覆按突出高效,覆按长度为 64 帧即可外推到近半分钟的视频。

指示词解耦

为了提高推理后果,Yume1.5 并未将系数文本信息送入编码器。它创造性地将指示词解耦为事件形容和动作形容。

动作形容:如"上前走"、"向左转"。这类形容词汇量有限且固定。系统事前规划并缓存了这些动作的 T5Embedding,无需访佛进行劳苦的文本编码规划。为了让用户的键盘操作大要精准限度视角,Yume1.5 界说了一套详备的动作词汇表。

直播公会系统培训教程

事件形容:形容生成信息。这类形容仅在运回荡或用户输入新指示时通过 T5 编码器处理一次。

这种解耦与缓存计谋,权贵诽谤了 T5 文本编码器在及时推理中的规划占比。

性能评测

直播公会系统培训教程

1. 指示追随:Yume1.5 的 IF 得分高达 0.836。这平直解释了限度门径的灵验性。

2. 生成速率:从 Yume1.0 的 572 秒镌汰至 8 秒。

消融盘问:

TSCM 的灵验性:移除 TSCM 改用简便的空间压缩后,指示追随智力从 0.836 降至 0.767。此外,TSCM 使得自回想推理时候随高下文加多保捏褂讪(在 8 个 block 后每步推理时候恒定)。

直播公会系统培训教程

直播公会系统培训教程

全面开源

Yume 的模子权重、推理代码、覆按代码以及 Sekai 数据集沿途开源。

为了便捷使用和测试 Yume-5B,Github 主页提供了 Windows 下的一键启动有谋划来运行 Web Demo。

只需运行 run_oneclick_debug.bat,然后在浏览器中绽放露馅的 URL 即可。该情状已在 RTX4090Laptop GPU(16GB)上测试通过。

局限性

物理逻辑缺失:模子败落物理引擎支捏,偶发因果子虚(如倒行)及长周期细节漂移,TSCM 仅起到缓解作用。

模子限制量度:现时使用 5B 模子协调及时性。为冲破瓶颈(如迈向 30B+ 限制),改日将弃取 MoE 架构以兼顾高性能与低蔓延。

预测

Yume 和数据集的开源,守望能加快寰宇模子的盘问。跟着时代的迭代,咱们有事理笃信,在不远的将来,分袂"真实"与"生成"的范畴将变得愈发轮廓。

论文贯穿:https://arxiv.org/pdf/2512.22096

开源代码:https://github.com/stdstu12/YUME

主页贯穿:https://stdstu12.github.io/YUME-Project

数据贯穿:https://github.com/Lixsp11/sekai-codebase  

一键三连「点赞」「转发」「注意心」

接待在批驳区留住你的念念法!

—  完  —

咱们正在招聘又名眼疾手快、柔和 AI 的学术裁剪实习生  � �

感好奇景仰的小伙伴接待柔和 � �  了解确定

直播公会系统培训教程

� � 点亮星标 � �

科技前沿发达逐日见直播公会系统培训教程

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享