"); //-->
来自中科大、快手的研究者针对人脸伪造,提出了基于单中心损失监督的频率感知鉴别特征学习框架,将度量学习和自适应频率特征学习应用于人脸伪造检测,实现SOTA性能。
一:背景和动机
随着基于自编码器和生成对抗网络的图像生成技术的快速发展,以deepfake为代表的人脸伪造技术在娱乐大众的同时,也带来巨大的安全隐患。与之对应的,人脸伪造检测也逐渐成为计算机视觉领域研究的热点。
目前的检测方法大多数将伪造检测任务转化为二分类任务来处理,使用softmax loss[1] 监督网络在自然和篡改人脸的混合数据集上训练。但是如图一所示,在softmax loss监督下学习到的特征本质上差异性不足,因为softmax loss没有明确的约束类内的紧凑性和类间的离散性。一些研究注意到了这个问题,尝试使用triplet loss提取差异性特征。但是,常规的度量学习方法通常无差别的约束特征类内的紧凑性,忽略不同类别类内分布的差异性。如图一所示,由于GAN指纹和其他一些独特的处理,不同伪造方法生成篡改人脸的特征分布不同,而自然人脸则共享着更多相似的特征。篡改人脸类内分布的多样性意味着在特征空间中聚合所有的篡改人脸是一件困难的事,这种优化上的困难导致了常规的度量学习方法应用到人脸伪造检测领域时通常无法取得理想的效果。
图一:特征分布示意图
为了解决这个问题,来自中科大、快手的研究者提出了一种新的单中心损失SCL (single-center loss)。如图一所示,SCL在约束自然人脸和篡改人脸类间的离散性的同时,仅聚合类内差异较小的自然人脸。此外,为了提高在低质量图像和视频中的检测效果,研究人员提出了一种完全由数据驱动的自适应频域特征提取模块。
论文地址:https://arxiv.org/pdf/2103.09096.pdf
二:方法介绍
本文方法的整体框架如图二所示。在一个基础网络中增加自适应频域特征生成模块AFFGM(Adaptive frequency features generation module)和特征融合模块。输入图像首先经过AFFGM和RGB分支分别提取空间域特征和频域特征,在融合模块中将两种特征进行融合,融合后的特征经过进一步特征提取之后,得到一维的特征矢量。整个网络在softmax loss和本文提出的SCL的联合监督下进行端到端训练。
图二:整体网络框架
自适应频域特征生成模块(AFFGM)
受到文献[2][3]的启发,本文提出了一种完全由数据驱动的自适应频域特征生成模块。如图二所示,AFFGM由数据预处理和自适应频域信息挖掘模块AFIMB(Adaptive frequency information mining block)组成。数据预处理的流程如图三所示。前两步类似jpeg压缩,将空间域图像变换到YCbCr空间,并在每个图像块上作DCT变换。DCT变换后所有图像块中同一频段的系数按照原图像块的位置组合成一个通道。最后把所有的通道组合在一起,正则化后作为AFIMB的输入。
预处理后的频域图像,保留了所有频段的信息,同时也保留了原图像的结构信息,这意味可以使用现有的神经网络直接从频域图像中提取特征。AFIMB结构由三个卷积块、两个线性层和一个最大池化层组成。不同于之前依赖人类先验提取特定频段信息的方法,本文提出的AFFGM完全以数据驱动的方法从不同的频段中提取差异性特征。
图三:数据预处理流程示意
单中心损失(SCL)
常规的度量学习方法并没有考虑不同类别类内分布的差异性,这导致他们应用到人脸伪造检测时,因为优化困难,而无法获得理想的效果。为了解决这个问题,该研究提出的SCL在约束自然人脸和篡改人脸类间的离散性的同时,仅聚合类内差异较小的自然人脸。在不增加优化难度的情况下,监督网络提取到更具差异性的特征。如图二所示,SCL将自然样本聚合在可更新的中心点附近,同时推动篡改样本远离中心点。SCL可以定义为:
其中和分别代表自然样本和篡改样本到中心点的欧式距离。由于欧式距离与特征的维度相关,所以为了便于设置超参,距离的阈值被设置为。与center loss类似,中心点C在每步迭代中不断更新。
三:实验结果
为了验证SCL损失,研究人员对各种损失进行了实验,包括centerloss、triplet loss等,结果如下所示:
表一:几种损失函数对比
图四:不同损失函数监督下特征的可视化。(a)softmax loss(b) triplet + softmaxloss(c)center + softmax loss(d)SCL + softmax loss。
为了研究不同结构的融合模块对性能的影响,所有实验都是在softmax loss监督下进行的。如下表所示:
表二:消融实验
该研究在FF++数据集上与之前的人脸伪造检测方法进行了比较。结果如下表所示:
表三:与其他方法对比
四:总结
在这篇文章中,基于自然人脸和篡改人脸类内分布的差异性,该研究提出了一种新的损失函数SCL。SCL在增大自然人脸和伪造人脸类间距离的同时,仅仅约束自然人脸类内的紧凑性。在不增大优化难度的情况下,监督网络学习到更具差异性的特征。
此外,为了增强低质量下检测效果,该研究提出了一种完全由数据驱动自适应频域特征提取方法。未来,该研究计划探索提升模型泛化能力和鲁棒性的方法以及SCL在其他领域应用。
参考文献:
[1] Liu W, Wen Y, Yu Z, et al. Large-margin softmaxloss for convolutional neural networks[C]//ICML. 2016, 2(3): 7.
[2] Gueguen L, Sergeev A, Kadlec B, et al. Fasterneural networks straight from jpeg[J]. Advances in Neural InformationProcessing Systems, 2018, 31: 3933-3944.
[3] Xu K, Qin M, Sun F, et al. Learning in thefrequency domain[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition. 2020: 1740-1749.
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。