SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了吗？一文总结超分辨率分析必备经典模型（三）-3

机器之心 | 2023-04-23 19:35:38 阅读：534

4、 HAN+

信息性特征在单幅图像的超分辨率任务中起着至关重要的作用。通道注意力已经被证明可以有效地保留每一层的信息丰富的特征。然而，通道注意力将每个卷积层作为一个单独的过程，忽略了不同层之间的关联性。为了解决这个问题，本文提出了一个新的整体注意力网络（holistic attention network，HAN），它由一个层注意力模块（layer attention module ，LAM）和一个通道-空间注意力模块（channel-spatial attention module，CSAM）组成，用来模拟层、通道和位置之间的整体相互依赖关系。具体来说，LAM通过考虑各层之间的相关性，自适应地强调层次特征。同时，CSAM学习每个通道所有位置的置信度，以选择性地捕获更多的信息特征。

图7 HAN网络结构。给定一个低分辨率的图像，HAN的第一个卷积层提取一组浅层的特征图。然后，一系列的残差组进一步提取低分辨率输入的更深层次的特征表示。作者提出了一个层注意模块（LAM）来学习来自RGs的每个输出的相关性，以及一个通道-空间注意力模块（CSAM）来研究通道和像素之间的相互依赖关系。最后，一个上采样块生成了高分辨率的图像

如图7所示，HAN由四部分组成：特征提取、层注意力模块、通道空间注意力模块和最终的重构模块。给定LR，HAN的第一个卷积层提取一组浅层特征图，然后一系列残差组进一步提取LR的深层特征。其间，利用所提出的LAM来学习残差组输出的特征图的相关性，以及一个CSAM来研究通道和像素之间的相互依赖关系。最后，通过上采样模块产生HR。

首先对输入的LR图像进行卷积提取浅层特征：

然后使用RCAN网络的框架，设置N个residual group（RG）得到中间特征：

对提取到的特征进行整体特征加权，包括：i）对层级特征即各F_i的层次注意 ii）对RCAN最后一层F_N的通道-空间注意力:

其中，H_LA表示LAM模块, L从RGs的输出特征中学习特征相关矩阵，然后为各F_i加权。结果表明，该方法能够增强高贡献的特征层，抑制冗余特征层。

其中，H_CSA表示CSAM模块。通道-空间注意力的目的是通过调节特征，自适应地捕捉通道间和通道内更重要的信息，以便最终的重建处理。基于准确性与效率的权衡考量，此步只以 F_N作为输入。在LAM和CSAM分别提取特征后，对两者结果联合处理，采用亚像素卷积的上采样方法：

选择L1距离作为损失函数：

图8 LAM图示

LAM模块的输入是从N 个residual group提取到的各层次特征图，维度为N×H×W×C，并将其reshape至N×HWC维度，和对应的转置矩阵进行矩阵相乘，计算得到各层之间的相关系数W_la：

其中，δ表示softmax，ψ表示reshape操作，w_i,j代表第i个和第j个特征图间的相关系数。将各矩阵加权相乘后再加上原矩阵，得到F_Lj ：

图9 通道-空间注意力模块

然后，将最后一层的特征图F_N作为输入，通过三维卷积层获得通道和空间特征W_csa，这样可以得到更有效的通道内和通道间信息。

此外，将注意力映射图W_csa和输入特征F_v进行元素乘法运算。最后，将加权后的结果乘以一个比例因子β，再加入输入特征F_N得到加权特征F_cs，其中，σ为sigmoid函数，β为比例因子，初始化为0。

当前SOTA！平台收录HAN+共2个模型实现。

项目SOTA！平台项目详情页

HAN+	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/han-4

5、 Config (f)

该方法是GAN在SR中的应用。作者修改了生成器以估计一个分布作为随机噪声的映射，此外改进了阻碍知觉训练目标的内容损失，还提出了额外的训练技术以进一步提高生成图像的感知质量。

图10 循环一致性损失是通过比较LR图像和下采样的SR图像来测量的。鉴别器得到了目标图像和通过对LR图像进行双三次上采样生成的参考图像

如图10所示，作者将超分辨率问题视为LR和HR图像空间之间的图像转换任务，并应用CycleGAN框架。为了简化问题，利用对G2：HR→LR的先验知识，可以将降采样操作表示为f，并将G2设置为f，而不是学习它。这就只剩下G1和D1需要学习。作者提出循环一致性损失（ cycle consistency loss）。这个损失不会以任何方式惩罚高频细节的生成，同时确保SR图像与LR图像保持一致。最后，生成器损失为：

为了使生成器能够在给定的单一图像中生成一个以上的解决方案，它必须接收和应用随机信息。超分辨率图像之间的变化将主要是高频纹理的随机变化。StyleGAN通过向生成器中每一层的输出添加像素级的高斯噪声来实现图像的随机变化，本文引入了这种方法，在生成器的每一个RRDB(Residual in Residual Dense Block)层之后添加噪声。然而，这就在噪声的大小方面引入了新的超参数。作者还观察到，各层和各通道的敏感性和所需的噪声大小是不同的。在每一层之后直接添加相同的噪声可能会损害生成器的性能。例如，检测边缘的通道会受到噪声的严重损害。为了缓解这种可能的问题，作者允许每个通道自适应地学习所需的噪声大小。具体来说，在将噪声添加到每一层的输出之前，将噪声与一个通道的缩放因子相乘。缩放因子是与网络参数同时学习的。噪声在评估时不被应用。

传统上，鉴别器网络接收单一的图像，并被训练来分类给定的图像是真实的还是生成的图像。这种设置将为生成器提供指向 "任何自然图像 "的梯度，而不是指向相应的HR图像。在一个极端的例子中，传统的鉴别器不会因为生成器从LR图像中生成完全不同但同样真实的图像而受到惩罚。虽然由于其他内容和感知损失的存在，这不太可能，但对于超分辨率的任务来说，鉴别器给出的梯度反馈是次优的。作为一种解决方案，作者将低分辨率的图像作为参考，与目标图像一起提供给鉴别器。这使鉴别器能够学习更多的重要特征来鉴别生成的图像，并根据LR图像提供更好的梯度反馈。

作者建议在网络对patch进行训练之前，检测并去除模糊的patch。有各种模糊检测的方法，例如算法方法和基于深度学习的方法。然而，大多数基于深度学习的工作侧重于预测图像的像素级模糊图，作者认为这并不能满足本文的需要，而选择了算法方法。如图11，作者测量patch的Laplacian activation的方差，并认为方差低于100的patch是模糊的patch。该算法在DIV2K数据集的16,000个96×96大小的随机裁剪的patch样本中检测到28.8%的模糊patch，在DIV8K数据集的140,000个patch样本中检测到48.9%的patch。

图11 在DIV8K数据集的图像0031上测试的随机选择的模糊检测算法样本。上面两行是被分类为清晰的patch，下面几行是模糊的patch。图像中清晰的区域（人、杆）被检测算法正确地认为是清晰的patch

当前SOTA！平台收录Config (f)共1个模型实现。

项目SOTA！平台项目详情页

Config (f)

前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/config-f

前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及API等资源。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。