欢迎光临GGAMen




AI 影像去背有多强?无需“绿幕”,也可达专业级效果

2025-09-19 219


最近某热门 AI 计划引起网友注目,因听说它能带你环游世界,还能让 AngelaBaby 多拍几部电视剧。

深入了解后,发现原来是一款 AI 影像去背神器,一大早就冲上 GitHub 热门榜。官方介绍,此 AI 神器可让影像处理变简单且专业,不用“绿幕”也能达到逼真、毫无违和感的合成效果。

其实影像去背 AI 已有不少,但这款确实让人很惊艳。先来看下示范影片。

▲ 你能看出公路背景和大海背景的影像,哪个是 AI 合成的吗?连撩起的头发都看不出一丝破绽,就算疯狂跳舞也没有影响效果;动态也是如此,疯狂甩头也能即时捕捉细节。

此超强 AI 去背神器来自香港城市大学和商汤科技联合研究团队,论文第一作者还是在读博士生张汉科。

接下来看看背后的技术原理。

目标分解网络 MODNet

关键在于此 AI 采用轻量级的目标分解网络 MODNet(Matting Objective Decomposition Network),可从不同背景的单个输入图像平滑处理动态人像。

简单说,功能就是影像人像去背。

有些影视作品尤其是古装剧,必须要后期处理人物背景。为了达到逼真的合成效果,拍摄时一般都会使用“绿幕”布景,因绿幕可使高品质的 Alpha 蒙版即时提取图像或影像人物。

如果没有绿幕,通常的技术是光照处理法,即预定义的 Trimap 为自然光照算法输入。这种方法会粗略生成三位图:确定的(不透明)前景,确定的(透明)背景及介于两者的未知(不透明)区域。

如果使用人工三位图不仅昂贵,且深度相机可能会导致精确度下降。因此,针对以上不足,研究人员提出目标分解网络 MODNet。

(Source:arxiv.org)

如图所示,MODNet 由 3 个相互依赖的分支 S、D 和 F 构成,分别透过一个低分辨率分支预测人类语义(SP)、一个高分辨率分支来聚焦纵向的边界细节(DP),最后一个融合分支预测 Alpha Matte (αp):

  • 语义估计(Semantic Estimation):采用 MobileNetV2[35] 架构,透过编码器(即 MODNet 的低分辨率分支)提取高层语义。
  • 细节预测(Detail Prediction):处理前景肖像周围的过渡区域,以 I,S (I) 和 S 的低层特征为输入。同时对卷积层数、频道、输入分辨率三方面最佳化。
  • 语义细节融合(Semantic-Detail Fusion):一个融合语义和细节的 CNN 模组,向上采样 S (I) 以使其形状与 D(I,S (I))匹配,再将 S (I) 和 D(I,S (I))连接起来预测最终 αp。

另外,基于以上底层框架,研究还提出自监督策略 SOC(Sub-Objectives Consistency)和帧延迟处理方法 OFD(One-Frame Delay )。

SOC 策略可保证 MODNet 架构处理未标注数据时,让输出子目标有一致性;OFD 方法在执行人像抠像影像任务时,可在平滑影像序列预测 Alpha 遮罩。如下图:

实验评估

开始实验评估前,研究人员创建一个摄影人像基准数据库 PPM-100(Photographic Portrait Matting)。包含 100 幅不同背景的精细注释肖像图。为了保证样本多样性,PPM-100 还定义成几个分类规则平衡样本类型,如是否包括整个人体;图像背景是否模糊;是否持有其他物体:

PPM-100 的样图具丰富背景和人物姿势,因此可看成较全面的基准。

来看看实验结果:

MODNet 在 MSE(均方误差)和 MAD(平均值)都优于其他无 Trimap 的方法。虽然性能不如采用 Trimap 的 DIM,但如果将 MODNet 修改为基于 Trimap 的方法──即以 Trimap 为输入,性能会优于基于 Trimap 的 DIM,也再次显示 MODNet 的结构体系有优越性。

此外,研究人员还进一步证明 MODNet 在模型大小和执行效率方面的优势。

模型大小透过参数总数衡量,执行效率透过 NVIDIA GTX1080 Ti GPU 超过 PPM-100 的平均参考时间来反映(输入图像裁剪为 512×512)。结果如图:

上图显示,MODNet 的推理时间为 15.8ms(63fps),是 FDMPA(31fps)的两倍。虽然 MODNet 的参数量比 FDMPA 稍多,但性能明显更好。

要注意的是,较少参数并不意味着更快的推理速度,因为模型可能有较大特征映射或耗时机制,如注意力机制(Attention Mechanisms)。

总之,MODNet 提出简单、快速且有效即时人像去背处理方法,仅以 RGB 图像输入,做到场景变化下 Alpha 蒙版预测。此外,由于提出的 SOC 和 OFD,MODNet 实际应用受到的区域转移问题影响也较小。

不过遗憾的是,此方法不能处理复杂的服装和模糊的运动影像,因为训练数据库没有这些影像。下阶段研究人员会尝试透过附加子目标(如光流估计)方法,以解决运动模糊下的影像去背问题。

  • Is a Green Screen Really Necessary for Real-Time Portrait Matting?
  • MODNet: Is a Green Screen Really Necessary for Real-Time Portrait Matting?
  • Do We Really Need Green Screens for High-Quality Real-Time Human Matting?
  • [R] Do We Really Need Green Screens for High-Quality Real-Time Human Matting?

(本文由 雷锋网 授权转载;首图为示意图;来源:pixabay)

延伸阅读:

  • AR 快速运用露曙光,手机拍摄就能复制贴上真实世界进电脑
  • Chrome 扩充功能自动去背,人物宠物一样 OK
2020-12-07 01:03:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 资讯头条 游戏头条 ggamen ggamen游戏新闻网 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 游戏头条
220