近日,来自中山大学 iSEE 试验室、香港华文大学 MM Lab、新加坡南洋理工大学、香港大学的讨论团队发布了最新讨论限制ProEdit。
该范例通过对驻守力机制和驱动噪声潜在分散的"精确手术",竣事了超高精度的图像与视频剪辑,且绝对无需进修、即插即用。
△ 图 1. ProEdit 在图像和视频剪辑上与现存范例的对比为什么 AI 剪辑老是"改不动"?
当今,基于反演(Inversion-based)的剪辑范例(如 RF-Solver、FireFlow)连领受受全局注入计谋:为了保执布景尽量一致,它们会将原图的辽远信息强行"塞"进生成过程。
但讨论团队通过文本与图像的驻守力可视化发现,这种作念法存在严重的"源图像信息过度注入"问题:
驻守力过度注入:
现存范例通过全局注入了过多的源图像驻守力特征,导致模子更听源图像的话,而忽略了用户的剪辑教唆(Prompt)。
潜在空间锁死:
反演后的驱动噪声中残留了太强的源图像分散信息,使得模子倾向于"重建"原图,而不是"剪辑"新图。
限制等于:现存范例下,你思把"橙色猫"改写成"玄色猫",AI 可能还是给你一只橙色猫。而去除源图像驻守力注入机制,又难以保执布景和非剪辑属性的一致性。
△ 图 2. 现存范例与去除驻守力注入下的驻守力可视化与剪辑效果 ProEdit 两把精确的"手术刀"
为了破解上述贫苦,ProEdit 提倡了两个中枢模块,从两个维度摒除源图像信息的搅扰:
△ 图 3. ProEdit 范例概览。
包含 KV-Mix 和 Latents-Shift 两个中枢模块与总体经过 1. KV-Mix:驻守力层面的"搀杂注入机制"
驻守力注入机制关于保执布景一致性至关伏击,但 ProEdit 不再盲目进行全局注入,而是通过驻守力求(Attention Map)提真金不怕火出掩码(Mask),以识别出"剪辑区"和"非剪辑区"。
非剪辑区:全量注入原图的 K(Key)和 V(Value)驻守力特征,保证布景的一致性。
剪辑区:将原图与地点的 K(Key)和 V(Value)驻守力特征按比例搀杂。这种"搀杂"机制让模子既能按照剪辑教唆(Prompt)进行剪辑,又能参考原图的结构,竣事平滑过渡。
2. Latents-Shift:潜变量空间的"分散偏移"
受格调移动算法 AdaIN 的启发,ProEdit 引入了 Latents-Shift 模块。
它在剪辑区域通过引入高斯噪声,对反演后的驱动噪声(Inverted Noise)进行分散的统计量偏移,从而摒除了源图像分散对驱动噪声分散的过度影响。
效果:透顶突破源图像对剪辑图像属性的"紧箍咒",让神采、姿态、数目等属性修更正得十拿九稳。
精确剪辑,布景一致
通过上述经过,ProEdit 省略撤职剪辑教唆,竣事精确、布景一致的剪辑。
△ 图 4. ProEdit 图像剪辑效果对比。
ProEdit 不错即插即用到现存的 Solver 当中进步剪辑效果
与现存基于反演的剪辑范例对比,ProEdit 在以下方面弘扬出了权贵上风:
布景一致性:
精确的掩码(Mask)区分出了非剪辑区域,确保了在修改地点属性时布景的一致性。
非剪辑属性的一致性:
在剪辑某个特定属性时(如神采)时,其他属性(如物体的姿态、纹理特征)省略保执一致性。
剪辑精确度与教唆撤职度:
在图像和视频剪辑中均竣事了更透顶、更精确的属性和洽。
△ 图 5. ProEdit 剪辑视频效果展示战绩斐然:全线 SOTA,即插即用
为了科学评估 ProEdit 在图像 / 视频的剪辑质料,讨论团队在 PIE-Bench 上进行了图像剪辑试验,在互联网视频构成的视频剪辑数据上进行了视频剪辑试验。
△ 表 1. PIE-Bench 上的图像剪辑试验限制
△ 表 2. 互联网视频数据上的视频剪辑试验限制
试验限制显现:
ProEdit 在 PIE-Bench 和视频剪辑任务上均获得了最佳的盘算推算,尤其在神采更动等精确剪辑任务上,权贵优于基线范例。
视频 / 图像双向适配:
ProEdit 双向适配视频和图像剪辑任务,在保执一致性的同期,省略精确地修改视频和图像骨子。
即插即用:
ProEdit 不错完满适配 FLUX 和 HunyuanVideo 等基于修正流(Rectified Flow)的模子,并省略无缝集成到 RF-Solver、FireFlow、UniEdit 等现存 Solver 中,立竿见影地进步剪辑质料。
转头与决策
ProEdit 针对基于反演的剪辑中弥远存在的"源图像信息过度注入"贫苦,提供了一个免进修(Training-Free)、即插即用(Plug-and-Play)的范例。
通过对驻守力机制和驱动噪声潜变量分散的细腻化处理,该讨论突破了现存范例在剪辑精确度上的瓶颈,处置了基于反演的剪辑中的剪辑效果与一致性均衡贫苦。
ProEdit 通过精确的模块化瞎想,为生成式剪辑提供了一个高效、低资本且通用的框架。
将来,跟着底层图像和视频生成模子的束缚进化,ProEdit 这种无需重进修、具备强兼容性的范例,其弘扬将愈加值得期待。
论文贯穿:
https://arxiv.org/abs/2512.22118v1
款式主页:
https://isee-laboratory.github.io/ProEdit/
代码仓库:
https://github.com/iSEE-Laboratory/ProEdit
一键三连「点赞」「转发」「留神心」
接待在驳倒区留住你的思法!
— 完 —
咱们正在招聘别称眼疾手快、顺心 AI 的学术剪辑实习生 � �
感意思的小伙伴接待顺心 � � 了解细则
� � 点亮星标 � �
科技前沿进展逐日见史上最强直播系统











