近日,来自中山大学 iSEE 实验室、香港汉文大学 MM Lab、新加坡南洋理工大学、香港大学的谋划团队发布了最新谋划后果ProEdit。
该次第通过对提神力机制和启动噪声潜在散布的"精确手术",完了了超高精度的图像与视频裁剪,且绝对无需磨练、即插即用。
△ 图 1. ProEdit 在图像和视频裁剪上与现存次第的对比为什么 AI 裁剪老是"改不动"?
现在,基于反演(Inversion-based)的裁剪次第(如 RF-Solver、FireFlow)每每聘任全局注入战略:为了保捏布景尽量一致,它们会将原图的无数信息强行"塞"进生成过程。
但谋划团队通过文本与图像的提神力可视化发现,这种作念法存在严重的"源图像信息过度注入"问题:
提神力过度注入:
现存次第通过全局注入了过多的源图像提神力特征,导致模子更听源图像的话,而忽略了用户的裁剪辅导(Prompt)。
潜在空间锁死:
反演后的启动噪声中残留了太强的源图像散布信息,使得模子倾向于"重建"原图,而不是"裁剪"新图。
限制等于:现存次第下,你念念把"橙色猫"改写成"玄色猫",AI 可能仍是给你一只橙色猫。而去除源图像提神力注入机制,又难以保捏布景和非裁剪属性的一致性。
△ 图 2. 现存次第与去除提神力注入下的提神力可视化与裁剪效果 ProEdit 两把精确的"手术刀"
为了破解上述难题,ProEdit 提倡了两个中枢模块,从两个维度摈斥源图像信息的干预:
△ 图 3. ProEdit 次第概览。
包含 KV-Mix 和 Latents-Shift 两个中枢模块与总体经由 1. KV-Mix:提神力层面的"搀和注入机制"
提神力注入机制关于保捏布景一致性至关艰辛,但 ProEdit 不再盲目进行全局注入,而是通过提神力求(Attention Map)索要出掩码(Mask),以识别出"裁剪区"和"非裁剪区"。
非裁剪区:全量注入原图的 K(Key)和 V(Value)提神力特征,保证布景的一致性。
裁剪区:将原图与场合的 K(Key)和 V(Value)提神力特征按比例搀和。这种"搀和"机制让模子既能按照裁剪辅导(Prompt)进行裁剪,又能参考原图的结构,完了平滑过渡。
2. Latents-Shift:潜变量空间的"散布偏移"
受立场迁徙算法 AdaIN 的启发,ProEdit 引入了 Latents-Shift 模块。
它在裁剪区域通过引入高斯噪声,对反演后的启动噪声(Inverted Noise)进行散布的统计量偏移,从而摈斥了源图像散布对启动噪声散布的过度影响。
效果:澈底冲破源图像对裁剪图像属性的"紧箍咒",让脸色、姿态、数目等属性修改变得稳操胜算。
精确裁剪,布景一致
通过上述经由,ProEdit 冒失恪守裁剪辅导,完了精确、布景一致的裁剪。
△ 图 4. ProEdit 图像裁剪效果对比。
ProEdit 不错即插即用到现存的 Solver 当中教训裁剪效果
与现存基于反演的裁剪次第对比,ProEdit 在以下方面透显露了权贵上风:
布景一致性:
精确的掩码(Mask)分辨出了非裁剪区域,确保了在修改场合属性时布景的一致性。
非裁剪属性的一致性:
在裁剪某个特定属性时(如脸色)时,其他属性(如物体的姿态、纹理特征)冒失保捏一致性。
裁剪精确度与辅导恪守度:
在图像和视频裁剪中均完了了更澈底、更精确的属性诊疗。
△ 图 5. ProEdit 裁剪视频效果展示战绩斐然:全线 SOTA,即插即用
为了科学评估 ProEdit 在图像 / 视频的裁剪质地,谋划团队在 PIE-Bench 上进行了图像裁剪实验,在互联网视频构成的视频裁剪数据上进行了视频裁剪实验。
△ 表 1. PIE-Bench 上的图像裁剪实验限制
△ 表 2. 互联网视频数据上的视频裁剪实验限制
实验限制泄露:
ProEdit 在 PIE-Bench 和视频裁剪任务上均获得了最佳的办法,尤其在脸色改造等精确裁剪任务上,权贵优于基线次第。
视频 / 图像双向适配:
ProEdit 双向适配视频和图像裁剪任务,在保捏一致性的同期,冒失精确地修改视频和图像践诺。
即插即用:
ProEdit 不错圆善适配 FLUX 和 HunyuanVideo 等基于修正流(Rectified Flow)的模子,并冒失无缝集成到 RF-Solver、FireFlow、UniEdit 等现存 Solver 中,立竿见影地教训裁剪质地。
回归与接洽
ProEdit 针对基于反演的裁剪中遥远存在的"源图像信息过度注入"难题,提供了一个免磨练(Training-Free)、即插即用(Plug-and-Play)的次第。
通过对提神力机制和启动噪声潜变量散布的良好化处理,该谋划冲破了现存次第在裁剪精确度上的瓶颈,惩处了基于反演的裁剪中的裁剪效果与一致性均衡难题。
ProEdit 通过精确的模块化规划,为生成式裁剪提供了一个高效、低本钱且通用的框架。
夙昔,跟着底层图像和视频生成模子的束缚进化,ProEdit 这种无需重磨练、具备强兼容性的次第,其透露将愈加值得期待。
论文鸠集:
https://arxiv.org/abs/2512.22118v1
格式主页:
https://isee-laboratory.github.io/ProEdit/
代码仓库:
https://github.com/iSEE-Laboratory/ProEdit
一键三连「点赞」「转发」「留意心」
接待在指摘区留住你的念念法!
— 完 —
咱们正在招聘别称眼疾手快、柔柔 AI 的学术裁剪实习生 � �
感兴趣的小伙伴接待柔柔 � � 了解细则
� � 点亮星标 � �
科技前沿进展逐日见奥维亚直播系统











