马赛克变高清,谷歌将SR3、CDM相结合,推出超分辨率新方法

机器之心 2021-10-14 10:11:59

谷歌的研究者用两种有关联的方法提升了扩散模型的图像合成质量。

自然图像合成作为一类 机器学习 (ML) 任务,具有广泛的应用,也带来了许多设计挑战。例如图像超分辨率,需要训练模型将低分辨率 图像转换为高分辨率图像。从修复老照片到改进医学成像系统,超分辨率有着非常重要的作用。

另一个图像合成任务是类条件 图像生成,该任务训练模型以从输入类标签生成样本图像。生成的样本图像可用于提高下游模型的 图像分类、分割等性能。

通常,这些图像合成任务由 深度生成模型执行,例如 GAN、VAE 和 自回归模型。然而,当经过训练以在高分辨率数据集上合成高质量样本时,这些 生成模型都有其缺点。例如,GAN 经常遭受不稳定的训练和模式崩溃,而 自回归模型通常会遭受合成速度缓慢的问题。

最初于 2015 年提出的扩散模型由于其训练稳定性和对图像的有希望的样本质量结果,最近重新引起了人们的兴趣 。因此,与其他类型的 深度生成模型相比,它们提供了潜在的有利权衡。扩散模型通过逐渐添加高斯噪声来破坏训练数据,慢慢消除数据中的细节直到它变成纯噪声,然后训练 神经网络来逆转这种破坏过程。运行这个反向损坏过程通过逐渐去噪直到产生干净的样本来合成来自纯噪声的数据。该合成过程可以解释为作为一种优化算法,它遵循数据密度的梯度以生成可能的样本。

近日,来自谷歌的研究者提出了两种有关联的方法,它们推动了扩散模型的图像合成质量的界限——通过重复细化的超分辨率(SR3,Super-Resolution via Repeated Refinements)和一个类条件合成模型,称为级联扩散模型(CDM)。研究者表明,通过扩大扩散模型和精心挑选的数据增强技术,新方法可以胜过现有的方法。具体来说,SR3 在人类评估中获得了超过 GAN 的强大图像超分辨率结果。CDM 生成的高保真 ImageNet 样本在两个 FID 得分上均超过 BigGAN-deep 和 VQ-VAE2。分类 准确率得分大幅提升。

SR3:图像超分辨率

SR3 是一种超分辨率扩散模型,它以低分辨率图像作为输入,并从纯噪声中构建相应的高分辨率图像。该模型在图像损坏过程中进行训练,其中噪声逐渐添加到高分辨率图像中,直到只剩下纯噪声为止。然后它学习逆转这个过程,从纯噪声开始,并通过输入低分辨率图像的引导逐步去除噪声以达到目标分布。

通过大规模训练,当扩展到输入低分辨率图像的 4 倍到 8 倍的分辨率时,SR3 在人脸和自然图像的超分辨率任务上取得了强大的 基准测试结果。这些超分辨率模型可以进一步级联在一起以增加有效的超分辨率比例因子,例如,将 64x64 → 256x256 和 256x256 → 1024x1024 人脸超分辨率模型 堆叠在一起,以执行 64x64 → 1024x1024 的超分辨率任务。

研究者将 SR3 与现有方法进行比较,并进行了一项双重强制选择实验,要求受试者在参考高分辨率图像和被问及以下问题时的模型输出之间进行选择:「你猜是相机拍的吗?」该研究通过混淆率(confusion rate)来衡量模型的性能(评估者选择模型输出而不是参考图像的时间百分比,其中完美的算法将实现 50% 的混淆率)。这项研究的结果如下图所示。

上图:该研究在 16x16 → 128x128 人脸的任务上实现了接近 50% 的混淆率,优于 SOTA 人脸超分辨率方法 PULSE 和 FSRGAN。下图:该方法还在 64x64 → 256x256 自然图像这一更困难的任务上实现了 40% 的混淆率,大大优于回归基线。

实验结果

自然图像:图 3 给出了 ImageNet 开发集上 64×64 → 256×256 的超分辨率自然图像示例,以及用于更精细检查的放大 patch。基线回归模型生成的图像忠实于输入,但模糊且缺乏细节。相比之下,SR3 产生的图像清晰,细节更丰富。

图 3:SR3 模型(64×64 → 256×256)的结果,模型在 ImageNet 上训练并在两个 ImageNet 测试图像上进行评估。

人脸图像:图 4 显示了两个测试图像上的人脸超分辨率模型(64×64 → 512×512)的输出,并放大了选定 patch。使用 8 倍的放大因子可以清楚地看到推断的详细结构。注意由于放大因子很大,因此有很多似是而非的输出,因此我们不期望输出与参考图像完全匹配。

图 4:SR3 模型(64×64 → 512×512)的结果,在 FFHQ 上训练并应用于训练集之外的图像,以及放大的 patch 以显示更精细的细节。

表 1 显示了 16×16 → 128×128 人脸超分辨率的 PSNR、SSIM [59] 和 Consistency 分数。SR3 在 PSNR 和 SSIM 上的表现优于 PULSE 和 FSRGAN,而在回归 基准上的表现则逊色。先前的工作 [7, 8, 28] 观察到,当输入分辨率低且放大因子大时,这些传统的自动评估措施与人类 感知的相关性不佳。这并不奇怪,因为这些指标往往会惩罚与目标图像不完全对齐的任何合成高频细节。

表 1:16×16 → 128×128 人脸超分辨率下的 PSNR 和 SSIM。

由于生成完美对齐的高频细节,例如,图 4 中完全相同的发束和图 3 中相同的豹斑,几乎是不可能的,因此 PSNR 和 SSIM 往往基于 MSE 回归的技术,这些技术对高频保守细节。对于 ImageNet 超分辨率 (64×64 → 256×256),表 2 进一步证实了这一点,其中 SR3 的输出实现了更高的样本质量分数(FID 和 IS),但 PSNR 和 SSIM 比回归差。

表 2:使用在 ImageNet 验证集上计算的标准指标,SR3 和回归基线在自然图像超分辨率上的性能比较。

受试者(subject) fool rate 是受试者选择模型输出而不是真实情况的试验比例。每个模型的 fool rate 有 50 名受试者,每个人都看到了测试集中 100 张图像中的 50 张。图 6 显示了 Task-1(顶部)和 Task-2(底部)的 fool rate。在这两个实验中,SR3 的 fool rate 接近 50%,表明 SR3 生成的图像既逼真又忠实于低分辨率输入。

图 6:人脸超分辨率人类 fool rates(越高越好,照片逼真的样本产生 50% 的 fool rate)。将 4 个模型的输出与真实情况进行比较。(顶部)对象显示为低分辨率输入, (底部)未显示输入。

CDM:类条件 ImageNet 生成

上面展示了 SR3 在生成超分辨率自然图像的有效性,更近一步的,研究者使用 SR3 模型来生成类条件图像。CDM 是在 ImageNet 数据集上训练的类条件扩散模型,用于生成高分辨率的自然图像。由于 ImageNet 是一个难度较高、熵较高的数据集,因此研究者将 CDM 构建为多个扩散模型的级联。

这种级联方法涉及在多个空间分辨率上级联多个 生成模型:一个扩散模型以低分辨率生成数据,然后是一系列 SR3 超分辨率扩散模型,这种级联模型将生成图像的分辨率提高到最高分辨率。众所周知,级联可以提高高分辨率数据的质量和训练速度。正如定量评估结果所证明的那样,CDM 进一步突出了扩散模型中级联对样本质量和下游任务(例如 图像分类)有效性。

一系列扩散模型的级联 pipeline 示例:第一个是生成低分辨率图像,其余图片是执行上采样到最终高分辨率图像。这里 pipeline 用于类条件 ImageNet 生成,它从 32x32 分辨率的类条件扩散模型开始,然后是使用 SR3 生成分辨率是原始分辨率 2 倍和 4 倍的类条件超分辨率图像。

上图为 256x256 级联类条件 ImageNet 模型中选择生成的图像。

除了在级联 pipeline 中包含 SR3 模型外,该研究还引入了一种新的数据增强技术:条件增强,它进一步提高了 CDM 生成的样本质量。虽然 CDM 中的超分辨率模型是在原始图像上训练的,但在生成阶段,需要对低分辨率基础模型生成的图像进行超分辨率处理。这导致超分辨率模型「训练 - 测试」不匹配。 

条件增强是指对级联 pipeline 中每个超分辨率模型的低分辨率输入图像进行数据增强。这些数据增强包括高斯噪声和高斯模糊,以防止每个超分辨率模型对其低分辨率条件输入 过拟合,最终得到更好的高分辨率 CDM 样本质量。

实验结果

下表为级联扩散模型 (CDM) 的主要结果,主要针对 64×64、 128×128、256×256 ImageNet 数据集分辨率以及基线的结果。

下表为在 128×128 、256×256 分辨率下,模型分类 准确率得分(Classification Accuracy Score,CAS)结果:

表 2b 和图 7 为 16×16→64×64 级联 pipeline 结果。结果发现如果没有条件增强,级联 pipeline 获得的样本质量低于非级联基线 64×64 模型,以 FID 得分为例,得分从 2.35 增加到 6.02。

图 7:消融实验,小规模 16×16→64×64pipeline 在不同数量的条件增强下生成的图形。如表 2b 所示。

表 4a 为 64×64→256×256 超分辨率模型应用高斯模糊增强的结果。表 4b 显示了超分辨率模型在类条件、大批量训练和随机翻转增强方面的进一步改进。

总之,CDM 生成的高保真样本在类条件 ImageNet 生成的 FID 得分和分类 准确率得分方面均优于 BigGAN-deep 和 VQ-VAE-2。CDM 是一种纯 生成模型,与 ADM 和 VQ-VAE-2 等其他模型不同,它不使用分类器来提高样本质量。

对于不使用额外分类器来提高样本质量的方法,类条件 ImageNet 在 256x256 分辨率下的 FID 得分结果(值越低越好)。

ImageNet 在 256x256 分辨率下的分类准确率得分,与现有方法相比,CDM 生成的数据获得了显著的增益,缩小了真实数据和生成数据之间的分类准确率差距(值越高越好)。

版权声明
本文为[机器之心]所创,转载请带上原文链接,感谢
https://www.jiqizhixin.com/articles/2021-10-14-2
相似文章