近日,来自中山大学 iSEE 实验室、香港华文大学 MM Lab、新加坡南洋理工大学、香港大学的接洽团队发布了最新接洽效果ProEdit。
该要领通过对珍见解机制和运转噪声潜在散布的"精确手术",已毕了超高精度的图像与视频裁剪,且全齐无需放哨、即插即用。
△ 图 1. ProEdit 在图像和视频裁剪上与现存要领的对比为什么 AI 裁剪老是"改不动"?
现在,基于反演(Inversion-based)的裁剪要领(如 RF-Solver、FireFlow)时常领受全局注入计谋:为了保抓布景尽量一致,它们会将原图的多数信息强行"塞"进生成过程。
但接洽团队通过文本与图像的珍见解可视化发现,这种作念法存在严重的"源图像信息过度注入"问题:
珍见解过度注入:
现存要领通过全局注入了过多的源图像珍见解特征,导致模子更听源图像的话,而忽略了用户的裁剪教导(Prompt)。
潜在空间锁死:
反演后的运转噪声中残留了太强的源图像散布信息,使得模子倾向于"重建"原图,而不是"裁剪"新图。
死心即是:现存要领下,你思把"橙色猫"改写成"玄色猫",AI 可能还是给你一只橙色猫。而去除源图像珍见解注入机制,又难以保抓布景和非裁剪属性的一致性。
△ 图 2. 现存要领与去除珍见解注入下的珍见解可视化与裁剪效果 ProEdit 两把精确的"手术刀"
为了破解上述繁难,ProEdit 建议了两个中枢模块,从两个维度拆除源图像信息的扰乱:
△ 图 3. ProEdit 要领概览。
包含 KV-Mix 和 Latents-Shift 两个中枢模块与总体进程 1. KV-Mix:珍见解层面的"夹杂注入机制"
珍见解注入机制关于保抓布景一致性至关进军,但 ProEdit 不再盲目进行全局注入,而是通过珍见解求(Attention Map)提真金不怕火出掩码(Mask),以识别出"裁剪区"和"非裁剪区"。
非裁剪区:全量注入原图的 K(Key)和 V(Value)珍见解特征,保证布景的一致性。
裁剪区:将原图与所在的 K(Key)和 V(Value)珍见解特征按比例夹杂。这种"夹杂"机制让模子既能按照裁剪教导(Prompt)进行裁剪,又能参考原图的结构,已毕平滑过渡。
2. Latents-Shift:潜变量空间的"散布偏移"
受作风移动算法 AdaIN 的启发,ProEdit 引入了 Latents-Shift 模块。
它在裁剪区域通过引入高斯噪声,对反演后的运转噪声(Inverted Noise)进行散布的统计量偏移,从而拆除了源图像散布对运转噪声散布的过度影响。
效果:澈底冲突源图像对裁剪图像属性的"紧箍咒",让颜料、姿态、数目等属性修改造得不费吹灰之力。
精确裁剪,布景一致
通过上述进程,ProEdit 大要征服裁剪教导,已毕精确、布景一致的裁剪。
△ 图 4. ProEdit 图像裁剪效果对比。
ProEdit 不错即插即用到现存的 Solver 当中进步裁剪效果
与现存基于反演的裁剪要领对比,ProEdit 在以下方面进展出了显赫上风:
布景一致性:
精确的掩码(Mask)永诀出了非裁剪区域,确保了在修改所在属性时布景的一致性。
非裁剪属性的一致性:
在裁剪某个特定属性时(如颜料)时,其他属性(如物体的姿态、纹理特征)大要保抓一致性。
裁剪精确度与教导征服度:
在图像和视频裁剪中均已毕了更澈底、更精确的属性调理。
△ 图 5. ProEdit 裁剪视频效果展示战绩斐然:全线 SOTA,即插即用
为了科学评估 ProEdit 在图像 / 视频的裁剪质地,接洽团队在 PIE-Bench 上进行了图像裁剪实验,在互联网视频构成的视频裁剪数据上进行了视频裁剪实验。
△ 表 1. PIE-Bench 上的图像裁剪实验死心
△ 表 2. 互联网视频数据上的视频裁剪实验死心
实验死心清晰:
ProEdit 在 PIE-Bench 和视频裁剪任务上均赢得了最佳的筹谋,尤其在颜料更动等精确裁剪任务上,显赫优于基线要领。
视频 / 图像双向适配:
ProEdit 双向适配视频和图像裁剪任务,在保抓一致性的同期,大要精确地修改视频和图像施行。
即插即用:
ProEdit 不错竣工适配 FLUX 和 HunyuanVideo 等基于修正流(Rectified Flow)的模子,并大要无缝集成到 RF-Solver、FireFlow、UniEdit 等现存 Solver 中,立竿见影地进步裁剪质地。
归来与沟通
ProEdit 针对基于反演的裁剪中长久存在的"源图像信息过度注入"繁难,提供了一个免放哨(Training-Free)、即插即用(Plug-and-Play)的要领。
通过对珍见解机制和运转噪声潜变量散布的素雅化处理,该接洽冲突了现存要领在裁剪精确度上的瓶颈,科罚了基于反演的裁剪中的裁剪效果与一致性均衡繁难。
ProEdit 通过精确的模块化策画,为生成式裁剪提供了一个高效、低资本且通用的框架。
改日,跟着底层图像和视频生成模子的握住进化,ProEdit 这种无需重放哨、具备强兼容性的要领,其进展将愈加值得期待。
论文畅通:
https://arxiv.org/abs/2512.22118v1
形式主页:
https://isee-laboratory.github.io/ProEdit/
代码仓库:
https://github.com/iSEE-Laboratory/ProEdit
一键三连「点赞」「转发」「防卫心」
接待在批驳区留住你的思法!
— 完 —
咱们正在招聘别称眼疾手快、关心 AI 的学术裁剪实习生 � �
感酷好的小伙伴接待关心 � � 了解细则
� � 点亮星标 � �
科技前沿进展逐日见视频直播团队管理系统











