近日,来自中山大学 iSEE 实验室、香港汉文大学 MM Lab、新加坡南洋理工大学、香港大学的筹商团队发布了最新筹商效力ProEdit。
该步调通过对瞩见解机制和起原噪声潜在散播的"精确手术",竣工了超高精度的图像与视频剪辑,且完竣无需考验、即插即用。
△ 图 1. ProEdit 在图像和视频剪辑上与现存步调的对比为什么 AI 剪辑老是"改不动"?
当今,基于反演(Inversion-based)的剪辑步调(如 RF-Solver、FireFlow)频繁选拔全局注入计谋:为了保抓布景尽量一致,它们会将原图的大量信息强行"塞"进生成过程。
但筹商团队通过文本与图像的瞩见解可视化发现,这种作念法存在严重的"源图像信息过度注入"问题:
瞩见解过度注入:
现存步调通过全局注入了过多的源图像瞩见解特征,导致模子更听源图像的话,而忽略了用户的剪辑辅导(Prompt)。
潜在空间锁死:
反演后的起原噪声中残留了太强的源图像散播信息,使得模子倾向于"重建"原图,而不是"剪辑"新图。
为止便是:现存步调下,你念念把"橙色猫"改写成"玄色猫",AI 可能也曾给你一只橙色猫。而去除源图像瞩见解注入机制,又难以保抓布景和非剪辑属性的一致性。
△ 图 2. 现存步调与去除瞩见解注入下的瞩见解可视化与剪辑效果 ProEdit 两把精确的"手术刀"
为了破解上述难过,ProEdit 提议了两个中枢模块,从两个维度排斥源图像信息的阻挠:
△ 图 3. ProEdit 步调概览。
包含 KV-Mix 和 Latents-Shift 两个中枢模块与总体历程 1. KV-Mix:瞩见解层面的"羼杂注入机制"
瞩见解注入机制关于保抓布景一致性至关浩大,但 ProEdit 不再盲目进行全局注入,而是通过瞩见解求(Attention Map)索求出掩码(Mask),以识别出"剪辑区"和"非剪辑区"。
非剪辑区:全量注入原图的 K(Key)和 V(Value)瞩见解特征,保证布景的一致性。
剪辑区:将原图与标的的 K(Key)和 V(Value)瞩见解特征按比例羼杂。这种"羼杂"机制让模子既能按照剪辑辅导(Prompt)进行剪辑,又能参考原图的结构,竣工平滑过渡。
2. Latents-Shift:潜变量空间的"散播偏移"
受立场迁徙算法 AdaIN 的启发,ProEdit 引入了 Latents-Shift 模块。
它在剪辑区域通过引入高斯噪声,对反演后的起原噪声(Inverted Noise)进行散播的统计量偏移,从而排斥了源图像散播对起原噪声散播的过度影响。
效果:澈底禁锢源图像对剪辑图像属性的"紧箍咒",让面貌、姿态、数目等属性修改变得举手之劳。
精确剪辑,布景一致
通过上述历程,ProEdit 简略谨守剪辑辅导,竣工精确、布景一致的剪辑。
△ 图 4. ProEdit 图像剪辑效果对比。
ProEdit 不错即插即用到现存的 Solver 当中晋升剪辑效果
与现存基于反演的剪辑步调对比,ProEdit 在以下方面施展出了显耀上风:
布景一致性:
精确的掩码(Mask)辞别出了非剪辑区域,确保了在修改标的属性时布景的一致性。
非剪辑属性的一致性:
在剪辑某个特定属性时(如面貌)时,其他属性(如物体的姿态、纹理特征)简略保抓一致性。
剪辑精确度与辅导谨守度:
在图像和视频剪辑中均竣工了更澈底、更精确的属性调整。
△ 图 5. ProEdit 剪辑视频效果展示战绩斐然:全线 SOTA,即插即用
为了科学评估 ProEdit 在图像 / 视频的剪辑质地,筹商团队在 PIE-Bench 上进行了图像剪辑实验,在互联网视频构成的视频剪辑数据上进行了视频剪辑实验。
△ 表 1. PIE-Bench 上的图像剪辑实验为止
△ 表 2. 互联网视频数据上的视频剪辑实验为止
实验为止袒露:
ProEdit 在 PIE-Bench 和视频剪辑任务上均得回了最佳的办法,尤其在面貌改换等精确剪辑任务上,显耀优于基线步调。
视频 / 图像双向适配:
ProEdit 双向适配视频和图像剪辑任务,在保抓一致性的同期,简略精确地修改视频和图像履行。
即插即用:
ProEdit 不错无缺适配 FLUX 和 HunyuanVideo 等基于修正流(Rectified Flow)的模子,并简略无缝集成到 RF-Solver、FireFlow、UniEdit 等现存 Solver 中,立竿见影地晋升剪辑质地。
转头与研究
ProEdit 针对基于反演的剪辑中永久存在的"源图像信息过度注入"难过,提供了一个免考验(Training-Free)、即插即用(Plug-and-Play)的步调。
通过对瞩见解机制和起原噪声潜变量散播的简易化处理,该筹商禁锢了现存步调在剪辑精确度上的瓶颈,处分了基于反演的剪辑中的剪辑效果与一致性均衡难过。
ProEdit 通过精确的模块化意料打算,为生成式剪辑提供了一个高效、低本钱且通用的框架。
改日,跟着底层图像和视频生成模子的束缚进化,ProEdit 这种无需重考验、具备强兼容性的步调,其施展将愈加值得期待。
论文流畅:
https://arxiv.org/abs/2512.22118v1
姿色主页:
https://isee-laboratory.github.io/ProEdit/
代码仓库:
https://github.com/iSEE-Laboratory/ProEdit
一键三连「点赞」「转发」「严防心」
宽饶在辩论区留住你的念念法!
— 完 —
咱们正在招聘别称眼疾手快、良善 AI 的学术剪辑实习生 � �
感兴致的小伙伴宽饶良善 � � 了解确定
� � 点亮星标 � �
科技前沿进展逐日见天津手机直播系统下载











