奥维亚直播系统

nasi 前天 4

默认

摘要： 钠斯网络专注于直播系统源码开发，支持私有化部署与自建流媒体，产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等，提供全套解决方案与源码交付，助力企业...

钠斯网络专注于直播系统源码开发，支持私有化部署与自建流媒体，产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等，提供全套解决方案与源码交付，助力企业快速搭建稳定高效的直播平台。

近日，来自中山大学 iSEE 实验室、香港汉文大学 MM Lab、新加坡南洋理工大学、香港大学的谋划团队发布了最新谋划后果ProEdit。

该次第通过对提神力机制和启动噪声潜在散布的"精确手术"，完了了超高精度的图像与视频裁剪，且绝对无需磨练、即插即用。

△ 图 1. ProEdit 在图像和视频裁剪上与现存次第的对比为什么 AI 裁剪老是"改不动"？

现在，基于反演（Inversion-based）的裁剪次第（如 RF-Solver、FireFlow）每每聘任全局注入战略：为了保捏布景尽量一致，它们会将原图的无数信息强行"塞"进生成过程。

但谋划团队通过文本与图像的提神力可视化发现，这种作念法存在严重的"源图像信息过度注入"问题：

提神力过度注入：

现存次第通过全局注入了过多的源图像提神力特征，导致模子更听源图像的话，而忽略了用户的裁剪辅导（Prompt）。

潜在空间锁死：

反演后的启动噪声中残留了太强的源图像散布信息，使得模子倾向于"重建"原图，而不是"裁剪"新图。

限制等于：现存次第下，你念念把"橙色猫"改写成"玄色猫"，AI 可能仍是给你一只橙色猫。而去除源图像提神力注入机制，又难以保捏布景和非裁剪属性的一致性。

△ 图 2. 现存次第与去除提神力注入下的提神力可视化与裁剪效果 ProEdit 两把精确的"手术刀"

为了破解上述难题，ProEdit 提倡了两个中枢模块，从两个维度摈斥源图像信息的干预：

△ 图 3. ProEdit 次第概览。

包含 KV-Mix 和 Latents-Shift 两个中枢模块与总体经由 1. KV-Mix：提神力层面的"搀和注入机制"

提神力注入机制关于保捏布景一致性至关艰辛，但 ProEdit 不再盲目进行全局注入，而是通过提神力求（Attention Map）索要出掩码（Mask），以识别出"裁剪区"和"非裁剪区"。

非裁剪区：全量注入原图的 K（Key）和 V（Value）提神力特征，保证布景的一致性。

裁剪区：将原图与场合的 K（Key）和 V（Value）提神力特征按比例搀和。这种"搀和"机制让模子既能按照裁剪辅导（Prompt）进行裁剪，又能参考原图的结构，完了平滑过渡。

2. Latents-Shift：潜变量空间的"散布偏移"

受立场迁徙算法 AdaIN 的启发，ProEdit 引入了 Latents-Shift 模块。

它在裁剪区域通过引入高斯噪声，对反演后的启动噪声（Inverted Noise）进行散布的统计量偏移，从而摈斥了源图像散布对启动噪声散布的过度影响。

效果：澈底冲破源图像对裁剪图像属性的"紧箍咒"，让脸色、姿态、数目等属性修改变得稳操胜算。

精确裁剪，布景一致

通过上述经由，ProEdit 冒失恪守裁剪辅导，完了精确、布景一致的裁剪。

△ 图 4. ProEdit 图像裁剪效果对比。

ProEdit 不错即插即用到现存的 Solver 当中教训裁剪效果

与现存基于反演的裁剪次第对比，ProEdit 在以下方面透显露了权贵上风：

布景一致性：

精确的掩码（Mask）分辨出了非裁剪区域，确保了在修改场合属性时布景的一致性。

非裁剪属性的一致性：

在裁剪某个特定属性时（如脸色）时，其他属性（如物体的姿态、纹理特征）冒失保捏一致性。

裁剪精确度与辅导恪守度：

在图像和视频裁剪中均完了了更澈底、更精确的属性诊疗。

△ 图 5. ProEdit 裁剪视频效果展示战绩斐然：全线 SOTA，即插即用

为了科学评估 ProEdit 在图像 / 视频的裁剪质地，谋划团队在 PIE-Bench 上进行了图像裁剪实验，在互联网视频构成的视频裁剪数据上进行了视频裁剪实验。

△ 表 1. PIE-Bench 上的图像裁剪实验限制

△ 表 2. 互联网视频数据上的视频裁剪实验限制

实验限制泄露：

ProEdit 在 PIE-Bench 和视频裁剪任务上均获得了最佳的办法，尤其在脸色改造等精确裁剪任务上，权贵优于基线次第。

视频 / 图像双向适配：

ProEdit 双向适配视频和图像裁剪任务，在保捏一致性的同期，冒失精确地修改视频和图像践诺。

即插即用：

ProEdit 不错圆善适配 FLUX 和 HunyuanVideo 等基于修正流（Rectified Flow）的模子，并冒失无缝集成到 RF-Solver、FireFlow、UniEdit 等现存 Solver 中，立竿见影地教训裁剪质地。

回归与接洽

ProEdit 针对基于反演的裁剪中遥远存在的"源图像信息过度注入"难题，提供了一个免磨练（Training-Free）、即插即用（Plug-and-Play）的次第。

通过对提神力机制和启动噪声潜变量散布的良好化处理，该谋划冲破了现存次第在裁剪精确度上的瓶颈，惩处了基于反演的裁剪中的裁剪效果与一致性均衡难题。

ProEdit 通过精确的模块化规划，为生成式裁剪提供了一个高效、低本钱且通用的框架。

夙昔，跟着底层图像和视频生成模子的束缚进化，ProEdit 这种无需重磨练、具备强兼容性的次第，其透露将愈加值得期待。

论文鸠集：

https://arxiv.org/abs/2512.22118v1

格式主页：

https://isee-laboratory.github.io/ProEdit/

代码仓库：

https://github.com/iSEE-Laboratory/ProEdit

一键三连「点赞」「转发」「留意心」

接待在指摘区留住你的念念法！

— 完 —

咱们正在招聘别称眼疾手快、柔柔 AI 的学术裁剪实习生 � �

感兴趣的小伙伴接待柔柔 � � 了解细则

� � 点亮星标 � �

科技前沿进展逐日见奥维亚直播系统

打赏

海报

阅读

奥维亚直播系统

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

相关推荐

乔韵直播秀场系统

网络直播系统解决方案

小猪电商直播系统源码

直播系统开发票

苹果系统电视直播软件

网校直播系统b超

电视台网络直播系统

搭建网络视频直播系统