本文作者:nasi

政府办公系统直播聊天

nasi 01-09 4
政府办公系统直播聊天摘要: 钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业...
钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业快速搭建稳定高效的直播平台。

政府办公系统直播聊天

近日,来自中山大学 iSEE 实际室、香港中语大学 MM Lab、新加坡南洋理工大学、香港大学的揣测团队发布了最新揣测效劳ProEdit。

该秩序通过对宝贵力机制和运行噪声潜在散播的"精确手术",兑现了超高精度的图像与视频裁剪,且绝对无需西宾、即插即用。

政府办公系统直播聊天

△  图 1. ProEdit 在图像和视频裁剪上与现存秩序的对比为什么 AI 裁剪老是"改不动"?

当今,基于反演(Inversion-based)的裁剪秩序(如 RF-Solver、FireFlow)每每礼聘全局注入政策:为了保捏布景尽量一致,它们会将原图的大批信息强行"塞"进生成过程。

但揣测团队通过文本与图像的宝贵力可视化发现,这种作念法存在严重的"源图像信息过度注入"问题:

宝贵力过度注入:

现存秩序通过全局注入了过多的源图像宝贵力特征,导致模子更听源图像的话,而忽略了用户的裁剪提醒(Prompt)。

潜在空间锁死:

反演后的运行噪声中残留了太强的源图像散播信息,使得模子倾向于"重建"原图,而不是"裁剪"新图。

舍弃即是:现存秩序下,你思把"橙色猫"改写成"玄色猫",AI 可能也曾给你一只橙色猫。而去除源图像宝贵力注入机制,又难以保捏布景和非裁剪属性的一致性。

政府办公系统直播聊天

△  图 2. 现存秩序与去除宝贵力注入下的宝贵力可视化与裁剪效果 ProEdit 两把精确的"手术刀"

为了破解上述贫乏,ProEdit 冷漠了两个中枢模块,从两个维度排斥源图像信息的侵犯:

政府办公系统直播聊天

△  图 3. ProEdit 秩序概览。

包含 KV-Mix 和 Latents-Shift 两个中枢模块与总体历程 1. KV-Mix:宝贵力层面的"搀杂注入机制"

宝贵力注入机制关于保捏布景一致性至关要紧,但 ProEdit 不再盲目进行全局注入,而是通过宝贵力争(Attention Map)索要出掩码(Mask),以识别出"裁剪区"和"非裁剪区"。

非裁剪区:全量注入原图的 K(Key)和 V(Value)宝贵力特征,保证布景的一致性。

裁剪区:将原图与标的的 K(Key)和 V(Value)宝贵力特征按比例搀杂。这种"搀杂"机制让模子既能按照裁剪提醒(Prompt)进行裁剪,又能参考原图的结构,兑现平滑过渡。

2. Latents-Shift:潜变量空间的"散播偏移"

受格调迁徙算法 AdaIN 的启发,ProEdit 引入了 Latents-Shift 模块。

它在裁剪区域通过引入高斯噪声,对反演后的运行噪声(Inverted Noise)进行散播的统计量偏移,从而排斥了源图像散播对运行噪声散播的过度影响。

效果:透顶突破源图像对裁剪图像属性的"紧箍咒",让神采、姿态、数目等属性修改造得举手之劳。

精确裁剪,布景一致

通过上述历程,ProEdit 好像罢职裁剪提醒,兑现精确、布景一致的裁剪。

政府办公系统直播聊天

△  图 4. ProEdit 图像裁剪效果对比。

ProEdit 不错即插即用到现存的 Solver 当中晋升裁剪效果

与现存基于反演的裁剪秩序对比,ProEdit 在以下方面发达出了显赫上风:

布景一致性:

精确的掩码(Mask)远离出了非裁剪区域,确保了在修改标的属性时布景的一致性。

非裁剪属性的一致性:

在裁剪某个特定属性时(如神采)时,其他属性(如物体的姿态、纹理特征)好像保捏一致性。

裁剪精确度与提醒罢职度:

在图像和视频裁剪中均兑现了更透顶、更精确的属性商量。

政府办公系统直播聊天

△  图 5. ProEdit 裁剪视频效果展示战绩斐然:全线 SOTA,即插即用

为了科学评估 ProEdit 在图像 / 视频的裁剪质地,揣测团队在 PIE-Bench 上进行了图像裁剪实际,在互联网视频构成的视频裁剪数据上进行了视频裁剪实际。

政府办公系统直播聊天

△  表 1. PIE-Bench 上的图像裁剪实际舍弃

政府办公系统直播聊天

△  表 2. 互联网视频数据上的视频裁剪实际舍弃

实际舍弃露馅:

ProEdit 在 PIE-Bench 和视频裁剪任务上均得回了最佳的谋略,尤其在神采鼎新等精确裁剪任务上,显赫优于基线秩序。

视频 / 图像双向适配:

ProEdit 双向适配视频和图像裁剪任务,在保捏一致性的同期,好像精确地修改视频和图像骨子。

即插即用:

ProEdit 不错无缺适配 FLUX 和 HunyuanVideo 等基于修正流(Rectified Flow)的模子,并好像无缝集成到 RF-Solver、FireFlow、UniEdit 等现存 Solver 中,立竿见影地晋升裁剪质地。

纪念与商议

ProEdit 针对基于反演的裁剪中恒久存在的"源图像信息过度注入"贫乏,提供了一个免西宾(Training-Free)、即插即用(Plug-and-Play)的秩序。

通过对宝贵力机制和运行噪声潜变量散播的致密化处理,该揣测突破了现存秩序在裁剪精确度上的瓶颈,贬责了基于反演的裁剪中的裁剪效果与一致性均衡贫乏。

ProEdit 通过精确的模块化联想,为生成式裁剪提供了一个高效、低老本且通用的框架。

翌日,跟着底层图像和视频生成模子的遏抑进化,ProEdit 这种无需重西宾、具备强兼容性的秩序,其发达将愈加值得期待。

论文连合:

https://arxiv.org/abs/2512.22118v1

方式主页:

https://isee-laboratory.github.io/ProEdit/

代码仓库:

https://github.com/iSEE-Laboratory/ProEdit

一键三连「点赞」「转发」「留神心」

迎接在评述区留住你的思法!

—  完  —

咱们正在招聘别称眼疾手快、温雅 AI 的学术裁剪实习生  � �

感酷好的小伙伴迎接温雅 � �  了解确定

政府办公系统直播聊天

� � 点亮星标 � �

科技前沿进展逐日见政府办公系统直播聊天

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享