专利 多模态模型的训练方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211364032.0 (22)申请日 2022.11.02 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人舒畅　肖京　陈又新　 (74)专利代理机构深圳市明日今典知识产权代理事务所(普通合伙) 44343 专利代理师王杰辉　曹勇 (51)Int.Cl. G06V 30/19(2022.01) G06V 30/18(2022.01) G06V 30/148(2022.01) G06V 10/82(2022.01)G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/289(2020.01) (54)发明名称多模态模型的训练方法、装置、计算机设备及存储介质 (57)摘要本申请涉及计算机技术领域，可用于金融、医疗等领域的图文摘要生成，特别是涉及到一种多模态模型的训练方法、装置、设备及介质，所述方法包括如下步骤：获取第一特征向量；获取第二特征向量；将第一特征向量和第二特征向量输入待训练多模态模型，待训练多模态模型包括编码层和解码层；通过编码层获取对应的第一编码特征向量和第二编码特征向量；通过解码层解码第一编码特征向量和第二编码特征向量并生成图文摘要；通过预设的损失函数对待训练多模态模型进行训练，直至待训练多模态模型中的参数收敛，得到多模态模型。本申请通过训练多模态模型，使得多模态模型具备生成图文结合的图文摘要性能，进而得到图文摘要。权利要求书2页说明书11页附图6页 CN 115410212 A 2022.11.29 CN 115410212 A 1.一种多模态模型的训练方法，其特征在于，所述方法包括：获取第一特征向量，所述第一特征向量为图片特征向量；获取第二特征向量，所述第二特征向量为文本特征向量；将所述第一特征向量和所述第二特征向量输入待训练多模态模型，所述待训练多模态模型包括编码层和解码层；通过所述编码层获取对应的第一编码特征向量和第二编码特征向量；将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层，通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要；通过预设的损失函数对所述待训练多模态模型进行训练，直至所述待训练多模态模型中的参数收敛，得到多模态模型。 2.根据权利要求1所述的多模态模型的训练方法，其特征在于，所述获取第一特征向量，所述第一特征向量为图片特征向量，包括：读取图片训练集中的图片；切分所述图片，获取多张子图片；对每一张所述子图片进行位置编码，得到图片位置编码向量；将多张所述子图片输入全连接神经网络，获取图片子特征向量；依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。 3.根据权利要求1所述的多模态模型的训练方法，其特征在于，所述获取第二特征向量，所述第二特征向量为文本特征向量，包括：读取文本训练集中的文本信息；拆分所述文本信息，得到多个文字分词；对每一个所述文字分词进行位置编码，得到文字位置编码向量；将多个所述文字分词输入全连接神经网络，获取文本子特征向量；依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。 4.根据权利要求1所述的多模态模型的训练方法，其特征在于，所述通过所述编码层获取对应的第一编码特征向量和第二编码特征向量，包括：在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析，得到第一分析数据和第二分析数据；基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量；基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。 5.根据权利要求1所述的多模态模型的训练方法，其特征在于，所述损失函数为；其中，表示图片损失函数；表示文本损失函数。 6.根据权利要求5所述的多模态模型的训练方法，其特征在于，所述通过预设的损失函数对所述待训练多模态模型进行训练，直至所述待训练多模态模型中的参数收敛，得到多模态模型，包括：权　利　要　求　书 1/2 页 2 CN 115410212 A 2通过所述图片损失函数计算预测图片与标注图片之间的第一损失值；通过所述文本损失函数计算预测文本与标注文本之间的第二损失值；将所述第一损失值和所述第二损失值相加，得到损失值；判断所述损失值是否小于预设损失阈值；若所述损失值小于所述预设损失阈值，则判定所述待训练多模态模型完成训练，得到多模态模型。 7.根据权利要求6所述的多模态模型的训练方法，其特征在于，所述通过预设的损失函数对所述待训练多模态模型进行训练，直至所述待训练多模态模型中的参数收敛，得到多模态模型之后，还包括：获取待处理文本及待处理图片；将所述待处理文本和所述待处理图片输入所述多模态模型；基于所述多模态模型对所述待处理文本和所述待处理图片进行处理，得到图文结合的摘要文本。 8.一种多模态模型的训练装置，其特征在于，所述装置包括：第一获取模块，用于获取第一特征向量，所述第一特征向量为图片特征向量；第二获取模块，用于获取第二特征向量，所述第二特征向量为文本特征向量；输入模块，用于将所述第一特征向量和所述第二特征向量输入待训练多模态模型，所述待训练多模态模型包括编码层和解码层；编码模块，用于通过所述编码层获取对应的第一编码特征向量和第二编码特征向量；解码模块，用于将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层，通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要；训练模型，用于通过预设的损失函数对所述待训练多模态模型进行训练，直至所述待训练多模态模型中的参数收敛，得到多模态模型。 9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求 1至7中任一项所述的多模态模型的训练方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的多模态模型的训练方法的步骤。权　利　要　求　书 2/2 页 3 CN 115410212 A 3

专利 多模态模型的训练方法、装置、计算机设备及存储介质

专利多模态模型的训练方法、装置、计算机设备及存储介质