专利 一种自监督学习的多模态图像融合方法及其应用

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211382245.6 (22)申请日 2022.11.07 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人陈勋　张静　刘爱萍　谢洪涛　谢庆国　钱若兵　张勇东　 (74)专利代理机构安徽省合肥新安专利代理有限责任公司 34101 专利代理师陆丽莉　何梅生 (51)Int.Cl. G06T 5/50(2006.01) G06T 3/40(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种自监督学习的多模态图像融合方法及其应用 (57)摘要本发明公开了一种自监督学习的多模态图像融合方法及其应用，该方法包括： 1、获取大型自然图像数据集并进行预处理，得到随机低分辨图像； 2、构建基于Transformer的编码器 ‑解码器结构的超分辨网络，将随机低分辨图像输入到超分辨网络进行自监督训练，得到优化后的编码器和解码器； 3、在优化后的编码器和解码器之间集成融合规则，构建融合模型，以多个模态图像作为输入，输出融合图像。本发明以期能直接从多个模态图像中合成一幅包含所有模态图像重要信息的高质量融合图像，从而能更快捷方便地辅助医生进行临床实践，以及辅助于民用和军用的环境监测系统。权利要求书4页说明书11页附图3页 CN 115511767 A 2022.12.23 CN 115511767 A 1.一种自监督学习的多模态图像融合方法，其特征在于，包括如下步骤：步骤一、获取大型自然图像数据集并进行预处理，得到随机低分辨图像集合：步骤1.1、从大型自然图像数据集获取原始训练图像集合，并将每张原始训练图像转换到灰度空间后，再将得到的每张灰度训练图像裁剪到固定尺寸，从而得到裁剪后的灰度图像集合，其中一张裁剪后的灰度图像记为 I；步骤1.2、为每张裁剪后的灰度图像设置一个随机概率，若随机概率小于阈值p，则将相应裁剪后的灰度图像转换成低分辨图像，否则，不转换，从而得到随机低分辨图像集合，其中，裁剪后的灰度图像I对应的一张随机低分辨率图像记为 I'；步骤二、构建超分辨网络，包括一个编码器和一个解码器；并将随机低分辨图像I'输入到超分辨网络中进行自监督训练，得到优化后的编码器和优化后的解码器：步骤2.1、构建编码器，依次包括一个输入映射层、 K个编码阶段、一个瓶颈层：步骤2.1.1、构建输入映射层，依次包括一个卷积层和一个LeakyReLU激活函数；并将随机低分辨图像I'输入所述输入映射层中进行处理后，得到输入映射层输出的特征图；步骤2.1.2、构建K个编码阶段，并对所述输入映射层输出的特征图进行处理，从而由第 K个编码阶段输出编码特征FeatK；步骤2.1.3、构建由NK+1个LeWin Transformer模块构成的瓶颈层，并将所述编码特征 FeatK输入到瓶颈层中，得到瓶颈层输出的编码特征FeatK+1；步骤2.2、构建解码器，依次包括K个解码阶段和一个输出映射层，并对编码特征进行处理，得到超分辨图像I ̃；步骤2.3、构建损失函数：以裁剪后的灰度图像I作为参考超分辨图像，按式(1)构建与所述超分辨图像之间的损失函数L oss： (1) 式(1)中， e 是一个扰动常数；步骤2.4、将低分辩图像集合按B个图像为一批循环输入到所述超分辨网络中，并采用 AdamW优化器对损失函数Loss进行最小化求解，以优化超分辨网络中的所有参数，并得到优化后的编码器和优化后的解码器；步骤三、构建融合模型，包括：优化后的编码器、融合模块、优化后的解码器，并将待融合的多个模态图像经过色彩空间转换后输入到融合模型中再进行色彩空间转换，得到最终融合图像：步骤3.1、将待融合的S个模态图像进行色彩空间转换，得到亮度通道下的S个模态图像 {I1,…,Is,…,IS}，其中， Is表示亮度通道下的第s个模态图像， s∈{1,2, …,S}；步骤3.2、将所述第s个模态图像Is输入到所述优化后的编码器中，得到所述优化后的编码器的第k个编码阶段输出的第s个模态图像Is的特征图Fk,s，从而得到所述优化后的编码器的第k个编码阶段输出的S个模态图像{I1,…,Is,…,IS}的特征图集合{Fk,1,…, Fk,s,…, Fk,S}；步骤3.3、构建融合模块，并对所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}进行融合，得到所述S个模态图像{I1,…,Is,…,IS}在所述第k个编码阶段的融合特征图Fk：权　利　要　求　书 1/4 页 2 CN 115511767 A 2步骤3.4、将K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}输入到优化后的解码器，得到初步融合图像；步骤3.5、若待融合的S个模态图像是灰度图像，则初步融合图像即是最终融合图像；若待融合的S个模态图像是RGB色彩空间，则按以下过程处理：首先将待融合的S个模态图像分别转换到YCbCr空间，得到S个模态图像在Cb通道上的图像集合和Cr 通道上的图像集合；将所述Cb通道上的图像集合和所述Cr 通道上的图像集合分别进行加权融合，得到融合后的Cb通道图像和融合后的Cr通道图像；将所述融合后的Cb 通道图像、所述融合后的Cr通道图像与初步融合图像在通道维度上进行拼接并转换到RGB 色彩空间，从而得到最终融合图像。 2.根据权利要求1所述的自监督学习的多模态图像融合方法，其特征在于，所述步骤 2.1.2包括：令K个编码阶段中的第k个编码阶段依次包括Nk个LeWin Transformer模块和一个下采样层， k∈{1,2, …,K}；所述第k个编码阶段的Nk个LeWin Transformer模块分别记为 LeWink,1,…, LeWink,n,…, ， n∈{1,2, …, Nk}，其中， LeWink,n表示第k个编码阶段的第n个LeWin Transformer模块，并依次包括：第一个归一化层LNk,n,1、一个基于窗口的多头注意力机制模块 WMSAk,n、第二个归一化层LNk,n,2、一个局部增强的前馈网络Le FFk,n；当k=1， n=1时，令所述输入映射层输出的特征图作为所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的输入，记为，并经过第一个归一化层LNk,n,1的处理后输出特征图Xk,n∈RC´H´W， C、 H、 W分别代表特征图Xk,n的通道数目、宽、高；所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的多头注意力机制模块WMSAk,n对所述特征图Xk,n按尺寸为M´M的不重叠窗口进行划分，得到N个窗口的特征图，再将N个窗口的特征图分别拉平，从而得到特征向量， N=HW/M2；其中，表示所述多头注意力机制模块WMSAk,n中第i个窗口内的特征向量， i∈{1,2, …,N}；对所述多头注意力机制模块 WMSAk,n中第i个窗口内的特征向量进行第h个头的注意力计算，得到第i个窗口的第 h个头的注意力计算结果， h∈{1,2, …,H'}，从而得到所述多头注意力机制模块WMSAk,n中 N个窗口的第h个头的注意力计算结果集合，进而得到所述多头注意力机制模块WMSAk,n中N个窗口的H'个头的注意力计算结果集合并在通道维度上进行拼接后再进行线性映射，最终得到所述多头注意力机制模块WMSAk,n输出的注意力增强特征向量；将所述注意力增强特征向量与所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的输入相加，得到所述第k个编码阶段的第n个LeWin Transformer模块LeWink,n的中间结果；将所述中间结果输入第k个编码阶段的第n个 LeWin Transformer模块LeWink,n的第二个归一化层LNk,n,2中进行处理后，得到的结果再输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的前馈网络LeFFk,n中，并依次经过一个线性层和一个GELU激活函数的映射后，得到映射后的特征向量；再将所述映射后的特征向量重塑为2D特征图后，依次经过一个深度可分卷积层和一个 GELU激活函数的处理，得到卷积后的特征图；再将所述卷积后的特征图拉平成特征向量，然后依次经过另权　利　要　求　书 2/4 页 3 CN 115511767 A 3

专利 一种自监督学习的多模态图像融合方法及其应用

专利一种自监督学习的多模态图像融合方法及其应用