本文作者:nasi

奥维亚直播系统

nasi 前天 4
奥维亚直播系统摘要: 钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业...
钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业快速搭建稳定高效的直播平台。

奥维亚直播系统

近日,来自中山大学 iSEE 实验室、香港汉文大学 MM Lab、新加坡南洋理工大学、香港大学的谋划团队发布了最新谋划后果ProEdit。

该次第通过对提神力机制和启动噪声潜在散布的"精确手术",完了了超高精度的图像与视频裁剪,且绝对无需磨练、即插即用。

奥维亚直播系统

△  图 1. ProEdit 在图像和视频裁剪上与现存次第的对比为什么 AI 裁剪老是"改不动"?

现在,基于反演(Inversion-based)的裁剪次第(如 RF-Solver、FireFlow)每每聘任全局注入战略:为了保捏布景尽量一致,它们会将原图的无数信息强行"塞"进生成过程。

但谋划团队通过文本与图像的提神力可视化发现,这种作念法存在严重的"源图像信息过度注入"问题:

提神力过度注入:

现存次第通过全局注入了过多的源图像提神力特征,导致模子更听源图像的话,而忽略了用户的裁剪辅导(Prompt)。

潜在空间锁死:

反演后的启动噪声中残留了太强的源图像散布信息,使得模子倾向于"重建"原图,而不是"裁剪"新图。

限制等于:现存次第下,你念念把"橙色猫"改写成"玄色猫",AI 可能仍是给你一只橙色猫。而去除源图像提神力注入机制,又难以保捏布景和非裁剪属性的一致性。

奥维亚直播系统

△  图 2. 现存次第与去除提神力注入下的提神力可视化与裁剪效果 ProEdit 两把精确的"手术刀"

为了破解上述难题,ProEdit 提倡了两个中枢模块,从两个维度摈斥源图像信息的干预:

奥维亚直播系统

△  图 3. ProEdit 次第概览。

包含 KV-Mix 和 Latents-Shift 两个中枢模块与总体经由 1. KV-Mix:提神力层面的"搀和注入机制"

提神力注入机制关于保捏布景一致性至关艰辛,但 ProEdit 不再盲目进行全局注入,而是通过提神力求(Attention Map)索要出掩码(Mask),以识别出"裁剪区"和"非裁剪区"。

非裁剪区:全量注入原图的 K(Key)和 V(Value)提神力特征,保证布景的一致性。

裁剪区:将原图与场合的 K(Key)和 V(Value)提神力特征按比例搀和。这种"搀和"机制让模子既能按照裁剪辅导(Prompt)进行裁剪,又能参考原图的结构,完了平滑过渡。

2. Latents-Shift:潜变量空间的"散布偏移"

受立场迁徙算法 AdaIN 的启发,ProEdit 引入了 Latents-Shift 模块。

它在裁剪区域通过引入高斯噪声,对反演后的启动噪声(Inverted Noise)进行散布的统计量偏移,从而摈斥了源图像散布对启动噪声散布的过度影响。

效果:澈底冲破源图像对裁剪图像属性的"紧箍咒",让脸色、姿态、数目等属性修改变得稳操胜算。

精确裁剪,布景一致

通过上述经由,ProEdit 冒失恪守裁剪辅导,完了精确、布景一致的裁剪。

奥维亚直播系统

△  图 4. ProEdit 图像裁剪效果对比。

ProEdit 不错即插即用到现存的 Solver 当中教训裁剪效果

与现存基于反演的裁剪次第对比,ProEdit 在以下方面透显露了权贵上风:

布景一致性:

精确的掩码(Mask)分辨出了非裁剪区域,确保了在修改场合属性时布景的一致性。

非裁剪属性的一致性:

在裁剪某个特定属性时(如脸色)时,其他属性(如物体的姿态、纹理特征)冒失保捏一致性。

裁剪精确度与辅导恪守度:

在图像和视频裁剪中均完了了更澈底、更精确的属性诊疗。

奥维亚直播系统

△  图 5. ProEdit 裁剪视频效果展示战绩斐然:全线 SOTA,即插即用

为了科学评估 ProEdit 在图像 / 视频的裁剪质地,谋划团队在 PIE-Bench 上进行了图像裁剪实验,在互联网视频构成的视频裁剪数据上进行了视频裁剪实验。

奥维亚直播系统

△  表 1. PIE-Bench 上的图像裁剪实验限制

奥维亚直播系统

△  表 2. 互联网视频数据上的视频裁剪实验限制

实验限制泄露:

ProEdit 在 PIE-Bench 和视频裁剪任务上均获得了最佳的办法,尤其在脸色改造等精确裁剪任务上,权贵优于基线次第。

视频 / 图像双向适配:

ProEdit 双向适配视频和图像裁剪任务,在保捏一致性的同期,冒失精确地修改视频和图像践诺。

即插即用:

ProEdit 不错圆善适配 FLUX 和 HunyuanVideo 等基于修正流(Rectified Flow)的模子,并冒失无缝集成到 RF-Solver、FireFlow、UniEdit 等现存 Solver 中,立竿见影地教训裁剪质地。

回归与接洽

ProEdit 针对基于反演的裁剪中遥远存在的"源图像信息过度注入"难题,提供了一个免磨练(Training-Free)、即插即用(Plug-and-Play)的次第。

通过对提神力机制和启动噪声潜变量散布的良好化处理,该谋划冲破了现存次第在裁剪精确度上的瓶颈,惩处了基于反演的裁剪中的裁剪效果与一致性均衡难题。

ProEdit 通过精确的模块化规划,为生成式裁剪提供了一个高效、低本钱且通用的框架。

夙昔,跟着底层图像和视频生成模子的束缚进化,ProEdit 这种无需重磨练、具备强兼容性的次第,其透露将愈加值得期待。

论文鸠集:

https://arxiv.org/abs/2512.22118v1

格式主页:

https://isee-laboratory.github.io/ProEdit/

代码仓库:

https://github.com/iSEE-Laboratory/ProEdit

一键三连「点赞」「转发」「留意心」

接待在指摘区留住你的念念法!

—  完  —

咱们正在招聘别称眼疾手快、柔柔 AI 的学术裁剪实习生  � �

感兴趣的小伙伴接待柔柔 � �  了解细则

奥维亚直播系统

� � 点亮星标 � �

科技前沿进展逐日见奥维亚直播系统

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享