(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211364032.0
(22)申请日 2022.11.02
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 舒畅 肖京 陈又新
(74)专利代理 机构 深圳市明日今典知识产权代
理事务所(普通 合伙) 44343
专利代理师 王杰辉 曹勇
(51)Int.Cl.
G06V 30/19(2022.01)
G06V 30/18(2022.01)
G06V 30/148(2022.01)
G06V 10/82(2022.01)G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06F 40/289(2020.01)
(54)发明名称
多模态模型的训练方法、 装置、 计算机设备
及存储介质
(57)摘要
本申请涉及计算机技术领域, 可用于金融、
医疗等领域的图文摘要生 成, 特别是涉及到一种
多模态模型的训练方法、 装置、 设备及介质, 所述
方法包括如下步骤: 获取第一特征向量; 获取第
二特征向量; 将第一特征向量和第二特征向量输
入待训练多模态模型, 待训练多模态模型包括编
码层和解码层; 通过编码层获取对应的第一编码
特征向量和第二编码特征向量; 通过解码层解码
第一编码特征向量和第二编码特征向量并生成
图文摘要; 通过预设的损失函数对待训练多模态
模型进行训练, 直至待训练多模态模 型中的参数
收敛, 得到多模态模型。 本申请通过训练多模态
模型, 使得多模态模型具备生 成图文结合的图文
摘要性能, 进 而得到图文摘要。
权利要求书2页 说明书11页 附图6页
CN 115410212 A
2022.11.29
CN 115410212 A
1.一种多模态模型的训练方法, 其特 征在于, 所述方法包括:
获取第一特 征向量, 所述第一特 征向量为图片特 征向量;
获取第二特 征向量, 所述第二特 征向量为文本特 征向量;
将所述第一特征向量和所述第 二特征向量输入待训练多模态模型, 所述待训练多模态
模型包括编码层和解码层;
通过所述编码层获取对应的第一编码特 征向量和第二编码特 征向量;
将所述第一编码特征向量和所述第 二编码特征向量输出至所述解码层, 通过所述解码
层解码所述第一编码特 征向量和所述第二编码特 征向量并生成图文摘要;
通过预设的损失函数对所述待训练多模态模型进行训练, 直至所述待训练多模态模型
中的参数收敛, 得到多模态模型。
2.根据权利要求1所述的多模态模型的训练方法, 其特征在于, 所述获取第一特征向
量, 所述第一特 征向量为图片特 征向量, 包括:
读取图片训练集中的图片;
切分所述图片, 获取多张子图片;
对每一张所述子图片进行位置编码, 得到图片位置编码向量;
将多张所述子图片输入 全连接神经网络, 获取图片子特 征向量;
依据所述图片位置编码向量和所述图片子特 征向量生成图片特 征向量。
3.根据权利要求1所述的多模态模型的训练方法, 其特征在于, 所述获取第二特征向
量, 所述第二特 征向量为文本特 征向量, 包括:
读取文本训练集中的文本信息;
拆分所述文本信息, 得到多个文字分词;
对每一个所述文字分词进行位置编码, 得到文字位置编码向量;
将多个所述文字分词输入 全连接神经网络, 获取文本 子特征向量;
依据所述文字位置编码向量和所述文本 子特征向量生成文本特 征向量。
4.根据权利要求1所述的多模态模型的训练方法, 其特征在于, 所述通过所述编码层获
取对应的第一编码特 征向量和第二编码特 征向量, 包括:
在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进
行分析, 得到第一分析 数据和第二分析 数据;
基于所述第一特 征向量结合所述第一分析 数据生成第一编码特 征向量;
基于所述第二特 征向量结合所述第二分析 数据生成第二编码特 征向量。
5.根据权利要求1所述的多模态模型的训练方法, 其特征在于, 所述损失函数为
; 其中,
表示图片损失函数;
表示文本损失函数。
6.根据权利要求5所述的多模态模型的训练方法, 其特征在于, 所述通过预设的损失函
数对所述待训练多模态模型进行训练, 直至所述待训练多模态模型中的参数收敛, 得到多
模态模型, 包括:权 利 要 求 书 1/2 页
2
CN 115410212 A
2通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;
通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;
将所述第一损失值和所述第二损失值相加, 得到损失值;
判断所述损失值是否小于预设损失阈值;
若所述损 失值小于所述预设损 失阈值, 则判定所述待训练多模态模型完成训练, 得到
多模态模型。
7.根据权利要求6所述的多模态模型的训练方法, 其特征在于, 所述通过预设的损失函
数对所述待训练多模态模型进行训练, 直至所述待训练多模态模型中的参数收敛, 得到多
模态模型之后, 还 包括:
获取待处 理文本及待处 理图片;
将所述待处 理文本和所述待处 理图片输入所述多模态模型;
基于所述多模态模型对所述待处理文本和所述待处理图片进行处理, 得到图文结合的
摘要文本。
8.一种多模态模型的训练装置, 其特 征在于, 所述装置包括:
第一获取模块, 用于获取第一特 征向量, 所述第一特 征向量为图片特 征向量;
第二获取模块, 用于获取第二特 征向量, 所述第二特 征向量为文本特 征向量;
输入模块, 用于将所述第一特征向量和所述第二特征向量输入待训练多模态模型, 所
述待训练多模态模型包括编码层和解码层;
编码模块, 用于通过 所述编码层获取对应的第一编码特 征向量和第二编码特 征向量;
解码模块, 用于将所述第一编码特征向量和所述第二编码特征向量输出至所述解码
层, 通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘
要;
训练模型, 用于通过预设的损 失函数对所述待训练多模态模型进行训练, 直至所述待
训练多模态模型中的参数收敛, 得到多模态模型。
9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在
于, 所述处理器执行所述计算机程序时实现权利要求 1至7中任一项 所述的多模态模型的训
练方法的步骤。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现权利要求1至7中任一项所述的多模态模型的训练方法的步骤。权 利 要 求 书 2/2 页
3
CN 115410212 A
3
专利 多模态模型的训练方法、装置、计算机设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:59上传分享