专利 文本生成、模型训练方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210563383.8 (22)申请日 2022.05.20 (71)申请人京东科技控股股份有限公司地址 100176 北京市大兴区北京经济技术开发区科创十一街18号C座2层2 21室 (72)发明人李业豪　潘滢炜　姚霆　梅涛　 (74)专利代理机构中国贸促会专利商标事务所有限公司 1 1038 专利代理师王莉莉 (51)Int.Cl. G06V 20/70(2022.01) G06V 10/74(2022.01) G06V 10/42(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06F 40/35(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本生成、模型训练方法和装置 (57)摘要本公开提出了一种文本生成、模型训练方法和装置，涉及计算机视觉技术领域。其中，文本生成方法包括：提取待处理图像的视觉特征；获取待处理图像的相关文本；对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征；根据待处理图像的视觉特征，和待处理图像的相关语义特征，生成待处理图像的描述文本。通过以上步骤，能够提高生成的图像描述文本的准确性。权利要求书4页说明书15页附图5页 CN 114926835 A 2022.08.19 CN 114926835 A 1.一种文本生成方法，包括：提取待处理图像的视觉特征；获取所述待处理图像的相关文本；对所述待处理图像的相关文本进行编码，以得到所述待处理图像的相关语义特征；根据所述待处理图像的视觉特征，和所述待处理图像的相关语义特征，生成所述待处理图像的描述文本。 2.根据权利要求1所述的文本生成方法，其中，所述获取所述待处理图像的相关文本包括：确定所述待处理图像与训练文本集中已有文本的相似度；根据所述相似度，从所述已有文本中选取所述待处理图像的相关文本。 3.根据权利要求2所述的文本生成方法，其中，所述确定所述待处理图像与已有文本的相似度包括：提取所述待处理图像的全局特征和所述已有文本的全局特征；计算所述待处理图像的全局特征和所述已有文本的全局特征的余弦相似度，并将所述余弦相似度作为所述待处理图像与已有文本的相似度。 4.根据权利要求1所述的文本生成方法，其中，所述对所述待处理图像的相关文本进行编码，以得到所述待处理图像的相关语义特征包括：根据所述待处理图像的相关文本，确定所述待处理图像的相关词序列；基于语义理解器对所述相关词序列进行编码，以得到所述待处理图像的相关语义特征，其中，所述语义理解器为训练后的基于注意力机制的神经网络模型。 5.根据权利要求4所述的文本生成方法，其中，所述基于语义理解器对所述待处理图像的相关词序列进行编码，以得到所述待处理图像的相关语义特征包括：将所述待处理图像的相关词序列与附加的记忆参数进行拼接，以得到输入词序列；基于自注意力机制对所述输入词序列进行上下文编码，以得到融合了上下文信息的语义特征；在所述待处理图像的视觉特征的辅助下，基于交叉注意力机制对所述融合了上下文信息的语义特征进行语义增强，以得到所述待处理图像的相关语义特征。 6.根据权利要求 4所述的文本生成方法，还包括：获取样本图像的相关词序列；根据所述样本图像的相关词序列，以及预设的损失函数，对基于注意力机制的神经网络模型进行训练，以得到所述语义理解器，其中，所述损失函数是以过滤掉样本图像的相关词序列中与样本图像不相关的语义词以及重建缺失的相关语义词为目标构建的。 7.根据权利要求6所述的文本生成方法，其中，根据所述样本图像的相关词序列，以及预设的损失函数，对基于注意力机制的神经网络模型进行训练包括：将所述样本图像的相关词序列与初始化的记忆参数进行拼接，得到输入词序列；将所述输入词序列输入基于注意力机制的神经网络模型，以得到输出语义特征，其中，所述输出语义特征包括多个语义词特征；对所述输出语义特征进行线性层投影，以确定所述输出语义特征中每个语义词特征在语义词汇表上的概率分布；权　利　要　求　书 1/4 页 2 CN 114926835 A 2根据所述输出语义特征中每个语义词特征在语义词汇表上的概率分布，计算损失函数的值；根据所述损失函数的值，对基于注意力机制的神经网络模型进行优化，以得到所述语义理解器。 8.根据权利要求4所述的文本生成方法，其中，所述对所述待处理图像的相关文本进行编码，以得到所述待处理图像的相关语义特征还包括：确定所述语义理解器输出的语义特征中每个语义词特征参与的位置编码；将所述语义词特征和其参与的位置编码进行融合，以得到融合后的语义词特征，并将所有融合后的语义词特征构成的整体作为待处理图像的相关语义特征。 9.根据权利要求8所述的文本生成方法，其中，确定所述语义理解器输出的语义特征中每个语义词特征参与的位置编码包括：对于每个语义词特征，确定所述语义词特征在位置编码序列中所有位置编码的注意力分布；根据所述注意力分布，对所述位置编码序列中所有位置编码进行聚合，以得到所述语义词特征参与的位置编码。 10.根据权利要求1所述的文本生成方法，其中，根据所述待处理图像的视觉特征，和所述待处理图像的相关语义特征，生成所述待处理图像的描述文本包括：基于文本解码器对所述待处理图像的视觉特征，和所述待处理图像的相关语义特征进行处理，以得到所述待处理图像的描述文本，其中，所述文本解码器为训练后的采用注意力机制的神经网络模型。 11.根据权利要求10所述的文本生成方法，其中，基于文本解码器对所述待处理图像的视觉特征，和所述待处理图像的相关语义特征进行处理，以得到所述待处理图像的描述文本包括：基于自注意力机制对当前解码时刻输入的文本特征与已预测出的所述待处理图像的描述词进行特征融合，以得到第一语义特征；在所述待处理图像的视觉特征和所述待处理图像的相关语义特征的辅助下，基于交叉注意力机制对当前解码时刻输入的文本特征进行语义增强，以得到第二语义特征；对所述第一语义特征和所述第二语义特征进行融合，以得到融合后的语义特征；根据所述融合后的语义特征，确定所述当前解码时刻输入的文本特征中的各个语义词特征的概率分布；根据所述概率分布，确定所述待处理图像的下一个描述词；在得到所述待处理图像的所有描述词后，将所有描述词构成的有序序列作为所述待处理图像的描述文本。 12.根据权利要求8所述的文本生成方法，其中，所述提取待处理图像的视觉特征包括：提取待处理图像的局部特征和全局特征；根据所述待处理图像的局部特征和全局特征，确定所述待处理图像的视觉特征。 13.根据权利要求12所述的文本生成方法，其中，利用文本图像对比预训练模型提取待处理图像的局部特征和全局特征。 14.根据权利要求12所述的文本生成方法，根据所述待处理图像的局部特征和全局特权　利　要　求　书 2/4 页 3 CN 114926835 A 3

专利 文本生成、模型训练方法和装置

专利文本生成、模型训练方法和装置