(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210563383.8
(22)申请日 2022.05.20
(71)申请人 京东科技控股 股份有限公司
地址 100176 北京市大兴区北京经济技 术
开发区科创十一 街18号C座2层2 21室
(72)发明人 李业豪 潘滢炜 姚霆 梅涛
(74)专利代理 机构 中国贸促会专利商标事务所
有限公司 1 1038
专利代理师 王莉莉
(51)Int.Cl.
G06V 20/70(2022.01)
G06V 10/74(2022.01)
G06V 10/42(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06F 40/35(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本生成、 模型训练方法和装置
(57)摘要
本公开提出了一种文本生 成、 模型训练方法
和装置, 涉及计算机视觉技术领域。 其中, 文本生
成方法包括: 提取待处理图像的视觉特征; 获取
待处理图像的相关文本; 对待处理图像的相关文
本进行编码, 以得到待处理图像的相关语义特
征; 根据待处理图像的视觉特征, 和待处理图像
的相关语义特征, 生成待处理图像的描述文本。
通过以上步骤, 能够提高生 成的图像描述文本的
准确性。
权利要求书4页 说明书15页 附图5页
CN 114926835 A
2022.08.19
CN 114926835 A
1.一种文本生成方法, 包括:
提取待处 理图像的视 觉特征;
获取所述待处 理图像的相关文本;
对所述待处 理图像的相关文本进行编码, 以得到所述待处 理图像的相关语义特 征;
根据所述待处理图像的视觉特征, 和所述待处理图像的相关语义特征, 生成所述待处
理图像的描述文本 。
2.根据权利要求1所述的文本生成方法, 其中, 所述获取所述待处理图像的相关文本包
括:
确定所述待处 理图像与训练文本集中已有 文本的相似度;
根据所述相似度, 从所述已有 文本中选取 所述待处 理图像的相关文本 。
3.根据权利要求2所述的文本生成方法, 其中, 所述确定所述待处理图像与已有文本的
相似度包括:
提取所述待处 理图像的全局特 征和所述已有 文本的全局特 征;
计算所述待处理图像的全局特征和所述已有文本的全局特征的余弦相似度, 并将所述
余弦相似度作为所述待处 理图像与已有 文本的相似度。
4.根据权利要求1所述的文本生成方法, 其中, 所述对所述待处理图像的相关文本进行
编码, 以得到所述待处 理图像的相关语义特 征包括:
根据所述待处 理图像的相关文本, 确定所述待处 理图像的相关词序列;
基于语义理解器对所述相关词序列进行编码, 以得到所述待处理图像的相关语义特
征, 其中, 所述语义理解器为训练后的基于注意力机制的神经网络模型。
5.根据权利要求4所述的文本生成方法, 其中, 所述基于语义理解器对所述待处理图像
的相关词序列进行编码, 以得到所述待处 理图像的相关语义特 征包括:
将所述待处 理图像的相关词序列 与附加的记 忆参数进行拼接, 以得到 输入词序列;
基于自注意力 机制对所述输入词序列进行上下文编码, 以得到融合了上下文信 息的语
义特征;
在所述待处理图像的视觉特征的辅助 下, 基于交叉注意力 机制对所述融合了上下文信
息的语义特 征进行语义增强, 以得到所述待处 理图像的相关语义特 征。
6.根据权利要求 4所述的文本生成方法, 还 包括:
获取样本图像的相关词序列;
根据所述样本 图像的相关词序列, 以及预设的损 失函数, 对基于注意力机制的神经网
络模型进 行训练, 以得到所述语义理解器, 其中, 所述损失函数是以过滤掉样本图像的相关
词序列中与样本图像不相关的语义词以及重建缺失的相关语义词为目标构建的。
7.根据权利要求6所述的文本生成方法, 其中, 根据所述样本 图像的相关词序列, 以及
预设的损失函数, 对基于注意力机制的神经网络模型进行训练包括:
将所述样本图像的相关词序列 与初始化的记 忆参数进行拼接, 得到 输入词序列;
将所述输入词序列输入基于注意力 机制的神经网络模型, 以得到输出语义特征, 其中,
所述输出语义特 征包括多个 语义词特 征;
对所述输出语义特征进行线性层投影, 以确定所述输出语义特征中每个语义词特征在
语义词汇 表上的概 率分布;权 利 要 求 书 1/4 页
2
CN 114926835 A
2根据所述输出语义特征中每个语义词特征在语义词汇表上的概率分布, 计算损失函数
的值;
根据所述损 失函数的值, 对基于注意力机制的神经网络模型进行优化, 以得到所述语
义理解器。
8.根据权利要求4所述的文本生成方法, 其中, 所述对所述待处理图像的相关文本进行
编码, 以得到所述待处 理图像的相关语义特 征还包括:
确定所述语义理解器输出的语义特 征中每个语义词特 征参与的位置编码;
将所述语义词特征和其参与的位置编码进行融合, 以得到融合后的语义词特征, 并将
所有融合后的语义词特 征构成的整体作为待处 理图像的相关语义特 征。
9.根据权利要求8所述的文本生成方法, 其中, 确定所述语义理解器输出的语义特征中
每个语义词特 征参与的位置编码包括:
对于每个语义词特征, 确定所述语义词特征在位置编码序列中所有位置编码的注意力
分布;
根据所述注意力分布, 对所述位置编码序列中所有位置编码进行聚合, 以得到所述语
义词特征参与的位置编码。
10.根据权利要求1所述的文本生成方法, 其中, 根据 所述待处理图像的视觉特征, 和所
述待处理图像的相关语义特 征, 生成所述待处 理图像的描述文本包括:
基于文本解码器对所述待处理图像的视觉特征, 和所述待处理图像的相关语义特征进
行处理, 以得到所述待处理图像的描述文本, 其中, 所述文本解码 器为训练后的采用注意力
机制的神经网络模型。
11.根据权利要求10所述的文本生成方法, 其中, 基于文本解码器对所述待处理图像的
视觉特征, 和所述待处理图像的相关语义特征进行处理, 以得到所述待处理图像的描述文
本包括:
基于自注意力机制对当前解码时刻输入的文本特征与已预测出的所述待处理图像的
描述词进行 特征融合, 以得到第一语义特 征;
在所述待处理图像的视觉特征和所述待处理图像的相关语义特征的辅助 下, 基于交叉
注意力机制对当前解码时刻输入的文本特 征进行语义增强, 以得到第二语义特 征;
对所述第一语义特 征和所述第二语义特 征进行融合, 以得到融合后的语义特 征;
根据所述融合后的语义特征, 确定所述当前解码时刻输入的文本特征中的各个语义词
特征的概率分布;
根据所述 概率分布, 确定所述待处 理图像的下一个描述词;
在得到所述待处理图像的所有描述词后, 将所有描述词构 成的有序序列作为所述待处
理图像的描述文本 。
12.根据权利要求8所述的文本生成方法, 其中, 所述 提取待处 理图像的视 觉特征包括:
提取待处 理图像的局部特 征和全局特 征;
根据所述待处 理图像的局部特 征和全局特 征, 确定所述待处 理图像的视 觉特征。
13.根据权利要求12所述的文本生成方法, 其中, 利用文本图像对比预训练模型提取待
处理图像的局部特 征和全局特 征。
14.根据权利要求12所述的文本生成方法, 根据所述待处理图像的局部特征和全局特权 利 要 求 书 2/4 页
3
CN 114926835 A
3
专利 文本生成、模型训练方法和装置
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:04上传分享