(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210734938.0
(22)申请日 2022.06.20
(71)申请人 北京达佳互联信息技 术有限公司
地址 100085 北京市海淀区上地西路6号1
幢1层101D1-7
(72)发明人 邓桂林 徐路 谢东霖
(74)专利代理 机构 华进联合专利商标代理有限
公司 44224
专利代理师 唐敏
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/74(2022.01)
G06T 9/00(2006.01)G06T 5/00(2006.01)
(54)发明名称
展示对象识别模 型的训练方法、 装置和电子
设备
(57)摘要
本公开关于一种展示对象识别模型的训练
方法、 装置、 电子设备、 存储介质以及计算机程序
产品, 该方法包括: 获取第一训练样本集, 第一训
练样本集包含训练样本对, 每个训练样本对包含
图像数据和文本数据; 根据图像编码器、 文本编
码器对训练样本对进行特征提取得到编码特征
对; 根据多模态编码器对编码特征对进行特征融
合得到融合编码特征; 确定编码特征对的相似度
关系, 根据相似度关系、 融合编码特征和融合特
征判别算法确定融合特征判别结果, 基于融合特
征判别结果对图像编码器、 文本编码器和多模态
编码器进行训练; 根据训练的图像编码器、 文本
编码器、 多模态编码器和分类任务模 型构建展示
对象识别模 型。 采用本方法提高了展示对象识别
结果的准确性。
权利要求书3页 说明书18页 附图7页
CN 115100472 A
2022.09.23
CN 115100472 A
1.一种展示对象识别模型的训练方法, 其特 征在于, 所述方法包括:
获取第一训练样本集, 所述第一训练样本集中包含多个训练样本对, 每个所述训练样
本对包含展示对象的图像数据和文本数据;
根据图像编码器、 文本编码器对所述训练样本集中的多个训练样本对进行特征提取,
得到多个编码特 征对, 每一所述编码特 征对中包 含图像编码特 征和文本编码特 征;
根据多模态编码器对每一所述编码特 征对进行 特征融合, 得到融合编码特 征;
根据每一所述编码特征对, 确定所述图像编码特征和所述文本编码特征间的相似度关
系, 并根据所述相似度关系、 所述融合编码特征以及融合特征判别算法, 确定融合特征判别
结果, 基于所述融合特征判别结果对所述图像编码器、 所述文本编码器以及所述多模态编
码器进行预训练; 所述融合特征判别结果表征融合特征处理结果与预设的融合条件间的损
失情况;
根据预训练的所述图像编码器、 所述文本编码器和所述多模态编码器、 以及分类任务
模型, 构建展示对象识别模型。
2.根据权利要求1所述的展示对象识别模型的训练方法, 其特征在于, 所述训练样本对
类型包括正样本对类型和负样本对类型, 所述根据每一所述编码特征对, 确定所述图像编
码特征和所述文本编码特 征间的相似度关系, 包括:
计算每一所述编码特 征对中的所述图像编码特 征和所述文本编码特 征间的相似度;
根据所述第一训练样本集中的样本对类型和所述相似度, 构建相似度矩阵。
3.根据权利要求2所述的展示对象识别模型的训练方法, 其特征在于, 所述融合特征判
别算法包括融合效果分类算法, 所述训练样本对包括正样本对和负样本对, 所述根据所述
相似度关系 、 所述融合编码特 征以及融合特 征判别算法, 确定融合特 征判别结果, 包括:
根据所述相似度矩阵, 在所述训练样本对中确定每一所述正样本对对应的难负样本
对; 所述难负 样本对是与所述 正样本对 满足预设相似度条件的训练样本对;
根据所述正样本对的融合编码特征、 所述难负样本对的融合编码特征以及所述融合效
果分类算法, 确定所述正样本对和所述难负样本对的融合编码特征 的分类处理结果, 基于
所述分类处 理结果与所述训练样本对类型, 确定融合特 征判别结果。
4.根据权利要求1至3中任一项所述的展示对象识别模型的训练方法, 其特征在于, 所
述融合特征判别算法包括掩膜重建算法, 所述训练样本对包括正样本对和负样本对, 所述
根据所述相似度关系、 所述融合编码特征以及融合特征判别算法, 确定融合特征判别结果,
包括:
在所述正样本对的所述融合编码特征中, 确定 图像特征块与文本标识间的相似度, 并
将相似度最高的所述图像特征块与所述文本标识, 确定为目标图像特征块和目标文本标
识;
对所述目标图像特征块进行掩膜处理, 得到 图像掩膜数据, 并根据所述图像掩膜数据
和所述目标文本标识构建图像掩膜数据组; 对所述 目标文本标识进行掩膜处理, 得到文本
掩膜数据, 并根据所述文本掩膜数据和所述目标图像特 征块构建文本掩膜数据组;
根据所述图像掩膜数据组中的所述目标文本标识, 对所述图像掩膜数据进行图像重
建, 得到图像重 建结果, 将所述图像重 建结果与初始的所述目标图像特征块进 行损失计算,
得到第一判别结果;权 利 要 求 书 1/3 页
2
CN 115100472 A
2根据所述文本掩膜数据组中的所述目标图像特征块, 对所述文本掩膜数据进行文本重
建, 得到文本重 建结果, 将所述文本重 建结果与初始的所述目标文本标识进行损失计算, 得
到第二判别结果, 所述第一判别结果和所述第二判别结果共同构成融合特 征判别结果。
5.根据权利要求1所述的展示对象识别模型的训练方法, 其特征在于, 所述基于所述融
合特征判别结果对所述图像编码器、 所述文本编码器以及所述多模态编码器进行预训练,
包括:
判断所述融合特 征判别结果是否满足预设的模型准确度条件;
当所述融合特征判别结果满足所述模型准确度条件时, 确定完成对所述图像编码器、
所述文本编码器以及所述多模态编码器的预训练。
6.根据权利要求1所述的展示对象识别模型的训练方法, 其特征在于, 所述分类任务模
型的训练过程包括:
获取第二训练样本集, 所述第二训练样本集中包含训练数据, 所述训练数据包含图像
数据和文本数据, 且所述训练数据携带展示对 象标注结果; 将所述第二训练样本集输入至
预训练的所述图像编码器、 所述文本编码器和所述多模态数据编码器, 确定融合编码特 征;
将所述融合编码特征输入至分类任务模型, 得到展示对象识别结果, 直至所述展示对
象识别结果与所述展示对象标注结果间的损失值满足预设的损失条件, 所述分类任务模型
训练完成。
7.根据权利要求6所述的展示对象识别模型的训练方法, 其特征在于, 所述分类任务模
型包括多专家网络模块以及多个分类任务层, 所述将所述融合编 码特征输入至 分类任务模
型, 得到展示对象识别结果, 包括:
将所述融合编码特征输入至所述多专家网络模块, 通过预设的分类处理策略, 对所述
融合编码特征进行加权处理, 得到所述分类处理策略对应的特征处理结果; 每一所述分类
处理策略对应一个所述分类任务层;
将各所述特征处理结果输入至对应的所述分类任务层, 得到每一所述分类任务层输出
的展示对象识别结果。
8.一种展示对象识别方法, 其特 征在于, 所述方法包括:
获取待识别的视频 数据, 所述视频 数据包括图像数据和文本数据;
将所述视频数据输入至展示对象识别模型中, 得到展示对象识别结果; 所述展示对象
识别模型由上述权利要求1至7中任一项所述的展示对象识别模型的训练方法训练得到的。
9.根据权利要求8所述的展示对象识别方法, 其特 征在于, 所述方法还 包括:
获取媒介信息 视频数据;
将所述媒介信 息视频数据输入至所述展示对象识别模型中, 得到所述媒介信 息视频数
据对应的展示对象识别结果;
基于已浏 览的视频数据对应的展示对象识别结果, 为目标账户推送相同展示对象识别
结果的媒介信息 视频数据。
10.一种展示对象识别模型的训练装置, 其特 征在于, 所述装置包括:
获取单元, 被配置为执行获取第一训练样本集, 所述第一训练样本集中包含多个训练
样本对, 每 个所述训练样本对 包含展示对象的图像数据和文本数据;
特征提取单元, 被配置为执行根据图像编码器、 文本编码器对所述训练样本集中的多权 利 要 求 书 2/3 页
3
CN 115100472 A
3
专利 展示对象识别模型的训练方法、装置和电子设备
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:58上传分享