(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211382245.6
(22)申请日 2022.11.07
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 陈勋 张静 刘爱萍 谢洪涛
谢庆国 钱若兵 张勇东
(74)专利代理 机构 安徽省合肥新 安专利代理有
限责任公司 34101
专利代理师 陆丽莉 何梅生
(51)Int.Cl.
G06T 5/50(2006.01)
G06T 3/40(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种自监督学习的多模态图像融合方法及
其应用
(57)摘要
本发明公开了一种自监督学习的多模态图
像融合方法及其应用, 该方法包括: 1、 获取大型
自然图像数据集并进行预处理, 得到随机低分辨
图像; 2、 构建基于Transformer的编码器 ‑解码器
结构的超分辨网络, 将随机低分辨图像输入到超
分辨网络进行自监督训练, 得到优化后的编码器
和解码器; 3、 在优化后的编码器和解码器 之间集
成融合规则, 构建融合模型, 以多个模态图像作
为输入, 输出融合图像。 本发明以期能直接从多
个模态图像中合成一幅包含所有模态 图像重要
信息的高质量融合图像, 从而能更快捷方便地辅
助医生进行 临床实践, 以及辅助于民用和军用的
环境监测系统。
权利要求书4页 说明书11页 附图3页
CN 115511767 A
2022.12.23
CN 115511767 A
1.一种自监 督学习的多模态图像融合方法, 其特 征在于, 包括如下步骤:
步骤一、 获取 大型自然图像数据集并进行 预处理, 得到随机低分辨图像集 合:
步骤1.1、 从大型自然图像数据集获取原始训练图像集合, 并将每张原始训练图像转换
到灰度空间后, 再将得到的每张灰度训练图像裁剪到固定尺寸, 从而得到裁剪后的灰度图
像集合, 其中一张裁 剪后的灰度图像记为 I;
步骤1.2、 为每张裁剪后的灰度图像设置一个随机概率, 若随机概率小于阈值p, 则将相
应裁剪后的灰度图像转换成低分辨图像, 否则, 不转换, 从而得到随机低分辨图像集合, 其
中, 裁剪后的灰度图像I对应的一张随机低分辨 率图像记为 I';
步骤二、 构建超分辨网络, 包括一个编码器和一个解码器; 并将随机低分辨图像I'输入
到超分辨网络中进行自监 督训练, 得到优化后的编码器和优化后的解码器:
步骤2.1、 构建编码器, 依次包括 一个输入映射层、 K个编码阶段、 一个瓶颈层:
步骤2.1.1、 构建输入映射层, 依次包括一个卷积层和一个LeakyReLU激活函数; 并将随
机低分辨图像I'输入所述输入映射层中进行处 理后, 得到 输入映射层输出的特 征图;
步骤2.1.2、 构建K个编码阶段, 并对所述输入映射层输出的特征图进行处理, 从而由第
K个编码阶段输出编码特 征FeatK;
步骤2.1.3、 构建由NK+1个LeWin Transformer模块构成的瓶颈层, 并将所述编码特征
FeatK输入到瓶颈层中, 得到瓶颈层输出的编码特 征FeatK+1;
步骤2.2、 构建解码器, 依次包括K个解码阶段和一个输出映射层, 并对编码特征进行处
理, 得到超分辨图像I ̃;
步骤2.3、 构建损失函数:
以裁剪后的灰度图像I作为参考超分辨图像, 按式(1)构建与所述超分辨图像
之间的
损失函数L oss:
(1)
式(1)中, e 是一个扰动常数;
步骤2.4、 将低分辩图像集合按B个图像为一批循环输入到所述超分辨网络中, 并采用
AdamW优化器对损失函数Loss进行最小化求解, 以优化超分辨网络中的所有参数, 并得到优
化后的编码器和优化后的解码器;
步骤三、 构建融合模型, 包括: 优化后的编码器、 融合模块、 优化后的解码器, 并将待融
合的多个模态图像经过色彩空间转换后输入到融合模型中再进行色彩空间转换, 得到最 终
融合图像:
步骤3.1、 将待融合的S个模态图像进行色彩空间转换, 得到亮度通道下的S个模态图像
{I1,…,Is,…,IS}, 其中, Is表示亮度通道下的第s个模态图像, s∈{1,2, …,S};
步骤3.2、 将所述第s个模态图像Is输入到所述优化后的编码器中, 得到 所述优化后的编
码器的第k个编码阶段输出的第s个模态图像Is的特征图Fk,s, 从而得到所述优化后的编码
器的第k个编码阶段输 出的S个模态图像{I1,…,Is,…,IS}的特征图集合{Fk,1,…, Fk,s,…,
Fk,S};
步骤3.3、 构建融合模块, 并对所述特征图集合{Fk,1,…, Fk,s,…, Fk,S}进行融合, 得到
所述S个模态图像{I1,…,Is,…,IS}在所述第k个编码阶段的融合特 征图Fk:权 利 要 求 书 1/4 页
2
CN 115511767 A
2步骤3.4、 将K个编码阶段的融合特征图集合{F1,…,Fk,…,FK}输入到优化后的解码器,
得到初步融合图像;
步骤3.5、 若待融合的S个模态图像是灰度图像, 则初步融合图像即是最终融合图像; 若
待融合的S个模态图像是RGB色彩空间, 则按以下 过程处理:
首先将待融合的S个模态图像分别转换到YCbCr空间, 得到S个模态图像在Cb通道上的
图像集合和Cr 通道上的图像集合; 将所述Cb通道上的图像集合和所述Cr 通道上的图像集合
分别进行加权融合, 得到融合后的Cb通道图像和融合后的Cr通道图像; 将所述融合后的Cb
通道图像、 所述融合后的Cr通道图像与初步融合图像在通道维度上进行拼接并转换到RGB
色彩空间, 从而得到最终融合图像。
2.根据权利要求1所述的自监督学习的多模态图像融合方法, 其特征在于, 所述步骤
2.1.2包括:
令K个编码阶段中的第k个编码阶段依次包括Nk个LeWin Transformer模块和一个下采
样层, k∈{1,2, …,K}; 所述第k个编码阶段的Nk个LeWin Transformer模块分别记为
LeWink,1,…, LeWink,n,…,
, n∈{1,2, …, Nk}, 其中, LeWink,n表示第k个编码阶
段的第n个LeWin Transformer模块, 并依次包括: 第一个归一化层LNk,n,1、 一个基于窗口的
多头注意力机制模块 WMSAk,n、 第二个归一 化层LNk,n,2、 一个局部增强的前馈网络Le FFk,n;
当k=1, n=1时, 令所述输入映射层输出的特征图作为所述第k个编码阶段的第n个LeWin
Transformer模块LeWink,n的输入, 记为
, 并经过第一个归一化层LNk,n,1的处理后输
出特征图Xk,n∈RC´H´W, C、 H、 W分别代表特征图Xk,n的通道数目、 宽、 高; 所述第k个编码阶段的
第n个LeWin Transformer模块LeWink,n的多头注意力 机制模块WMSAk,n对所述特征图Xk,n按
尺寸为M´M的不重叠窗口进行划分, 得到N个窗口的特征图, 再将N个窗口的特征图分别拉
平, 从而得到特征向量
, N=HW/M2; 其中,
表示所述多头注意力机
制模块WMSAk,n中第i个窗口内的特征向量, i∈{1,2, …,N}; 对所述多头注意力机制模块
WMSAk,n中第i个窗口内的特征向量
进行第h个头的注意力计算, 得到第i个窗口的第 h个
头的注意力计算结果
, h∈{1,2, …,H'}, 从而得到所述多头注意力机制模块WMSAk,n中
N个窗口的第h个头的注意力计算结果集合
, 进而得到所述多
头注意力机制模块WMSAk,n中N个窗口的H'个头的注意力计算结果集合
并在通道维度上进 行拼接后再进 行线性映射, 最 终得到所述多头注 意力机制模块WMSAk,n输
出的注意力增强特 征向量
;
将所述注意力增强特征向量
与所述第k个编码阶段的第n个LeWin
Transformer模块LeWink,n的输入
相加, 得到所述第k个编码阶段的第n个LeWin
Transformer模块LeWink,n的中间结果
; 将所述中间结果
输入第k个编码阶
段的第n个 LeWin Transformer模块LeWink,n的第二个归一化层LNk,n,2中进行处理后, 得到的
结果再输入第k个编码阶段的第n个LeWin Transformer模块LeWink,n的前馈网络LeFFk,n中,
并依次经过一个线性层和一个GELU激活函数的映射后, 得到映射后的特征向量; 再将所述
映射后的特征向量重塑为2D特征图后, 依次经过一个深度可分卷积层和一个 GELU激活函数
的处理, 得到卷积后的特征图; 再将所述卷积后的特征图拉平成特征向量, 然后依次经过另权 利 要 求 书 2/4 页
3
CN 115511767 A
3
专利 一种自监督学习的多模态图像融合方法及其应用
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:54上传分享