"); //-->
从脑信号中重建相应的视觉刺激都是一项有意义且充满挑战性的工作,先前已经有研究成功得到了与原图结构相近的重建结果,如:一些自然图像的轮廓、大小,但是缺乏明确的语义信息,难以辨别。
近年来,借助多模态预训练大模型与生成能力更强的 AI ,不少工作都得到了在语义上与原图十分接近的重建图像,但这些图像在位置、朝向等结构信息上不可控。
为了同时解决以上两个问题,中科院自动化所的卢一卓、杜长德等人借助 Stable Diffusion 和 CLIP 新提出了一种基于扩散模型的两阶段图像重建模型 MindDiffuser,相关论文已被国际多媒体大会 ACM MM 2023 接受。结果表明,本文提出的模型的重建结果已超过目前最优的模型。可视化结果也证明了本文的模型设计在神经生物学上的可解释性。
论文地址:https://arxiv.org/pdf/2308.04249.pdf
代码地址:https://github.com/ReedOnePeck/MindDiffuser
第一行为原图,第二行为从大脑 fMRI 信号中重建图像
研究背景
人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激,这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。
视觉神经编码指的是将外部视觉刺激拟合成神经活动信号的过程,视觉神经解码则是要找到一个从神经信号到对应视觉刺激的映射,根据解码难度和目标的不同,可以把它们划分为刺激分类、刺激识别与刺激重建。在刺激分类中,大脑活动被用来预测所呈现刺激的离散客体类别。刺激识别的目的是从一组已知的刺激图像中识别出与给定的大脑活动模式相对应的特定刺激。刺激重建则是要直接通过给定的 fMRI 信号生成图像,并且要求其形状、位置、朝向等细节与对应刺激图像对齐。本研究专注于研究刺激重建。
在详细调研图像重建领域已有的研究后,根据其模型结构,作者把目前的图像重建范式归纳为:生成式模型和优化式模型。
生成式模型在训练阶段,提取刺激图像和相应文本描述的特征,利用相应的脑响应去拟合这些特征,在测试阶段,用脑响应预测出对应的特征,将其输入训练好的生成模型,即可重建出对应的图像刺激。
优化式模型在训练阶段提取刺激图像的层次特征并用相应的脑响应去拟合,在测试阶段,首先随机初始化生成模型的隐空间,并且提取出随机生成的初始图像的层次特征,接着把脑响应预测出的对应的层次特征作为约束,通过反向传播优化隐空间,最终得到收敛的重建图像。
目前这两种重建范式都各自存在一些问题,针对以上问题本研究提出了一个新的框架来解决他们。
可控图像重建模型 ——MindDiffuser
如图 (a) 所示,首先提取出图像的 CLIP 视觉特征,VQVAE 特征,以及对应的文本描述特征,接着使用相应的脑信号去拟合这三种特征。然后通过两个阶段来实现图像重建任务。接下来将详细地介绍这两个阶段。
在阶段一,首先利用脑信号解码出 VQVAE 特征,将其通过一个前向扩散过程隐式的为扩散模型隐空间注入图像信息,接着在反向去噪过程中通过交叉注意力机制引入脑信号解码出的 CLIP 文本特征,至此完成了对重建图像的语义信息融合。
在阶段二,为了进一步对齐重建图像的结构信息,研究人员以 CLIP 图像特征为约束,通过反向传播梯度不断调整扩散模型的隐空间,得到语义和结构都与原图对齐的重建结果。
实验结果
作者在目前规模最大的神经影像数据集 NSD 上进行了详细的实验,在四种评价指标上的结果表明,提出的 MindDiffuser 重建出的图像与原图无论在语义相似度,还是结构相似度上都超过了目前的 sota 模型。
由于不同个体的大脑在解剖结构和功能连接上有着差异 [61],因此即使给不同的被试观看相同的图像刺激,采集到的 fMRI 信号也不同,为了验证本文提出的图像重建模型可以适应不同被试间的差异,研究团队在不加任何其他额外调整的情况下,对被试 1、2、5、7 的测试集图像进行了重建,结果如下图所示:
从图 4-13 中可以看出对于相同的刺激图像,由于不同的被试在采集 fMRI 信号时的大脑主观反应以及特征解码阶段的准确率有差异导致一些图像的重建结果并不令人满意,比如:被试 7 把 “桌子上的花” 错误的重建为 “桌子和椅子”,被试 5 无法重建出 “黄昏下的飞机”。但是大部分重建出来的图像对于研究人员选取的每一个被试在语义与结构上都表现出了与原图较好的对齐,这表明他们提出的图像重建模型可以很好的适应不同被试间的差异。
在特征解码阶段,本文使用 L2 正则化的线性回归模型自动挑选体素来拟合三种特征:语义特征 c,细节特征 z,结构特征 zCLIP,为了验证提出的模型在神经科学上的可解释性,本文将 fMRI 每个体素在预测不同特征时的权重投影到展开的大脑皮层上。
从图 (a) 中可以看出在解码语义特征 c 的时候,被筛选出来的体素绝大多数集中在 IPS、LO、MT、MST、PHC、VO 等处理高级语义的脑区,且分布在高级视皮层区域的体素权重要大于分布在低级视皮层区域的体素。从图 (b) 中可以看出,用于监督重建图像结构特征的 CLIP 底层线性层特征主要 V1、V2、V3、V3ab、hV4 等处理局部形状、纹理信息的低级脑区拟合。这表明,研究团队的模型在神经解码阶段,语义特征主要由高级脑区解释,结构特征主要由低级脑区解释,这一发现与神经科学先前的研究结果相一致。从图 (c) 中可以看出,高级视皮层与低级视皮层区域的体素都参与了解码细节特征 z,且权重大小相当,这说明通过解码 z,使得交叉注意力机制为重建图像融入了更加细粒度的语义与结构信息。以上可视化结果说明,MindDiffuser 在重建图像时使用的多模态信息可以很好被解释。
综上,本文提出了一个两阶段图像重建模型 MindDiffuser,该模型将重建图像的语义和结构信息与图像刺激进行对齐。在 NSD 数据集上,MindDiffuser 在定性和定量对比结果上都优于目前的 sota 模型。同时,实验表明,MindDiffuser 对个体间的差异具有良好的适应性,在没有任何额外调整的情况下,可以为被试 1、2、5 和 7 的刺激实现很好的重建结果。此外,可视化结果还证明,本文模型中利用的多模态信息可以通过神经科学中相应的脑响应来解释,从而验证了模型设计的合理性与可解释性。研究团队认为,MindDiffuser 在促进脑机接口的精确和可控刺激重建方面将发挥重要作用。
本论文由中科院自动化所直博生(尚未入学)卢一卓和副研究员杜长德作为共同第一作者,何晖光研究员为通讯作者,周琼怡博士是共同作者。研究工作得到了科技部科技创新 2030—“新一代人工智能” 重大项目、基金委项目、以及 CAAI - 华为 MindSpore 学术奖励基金及智能基座等项目的支持。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。