(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221096126 6.7
(22)申请日 2022.08.11
(71)申请人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 曹佳炯 丁菁汀
(74)专利代理 机构 北京市一法律师事务所
11654
专利代理师 李琳娜 刘荣娟
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/74(2022.01)
(54)发明名称
图像识别的方法和系统
(57)摘要
本说明书提供的图像识别的方法和系统, 获
取训练样 本集合, 并在训练样 本集合中提取出至
少一个训练样本对后, 采用识别模 型对每一训练
样本对进行特征提取, 得到图像样 本的图像特征
和文本样本的文本特征, 然后, 在图像特征中提
取出预设尺寸的特征区域对应的至少一个图像
子特征, 并在文本特征中识别出文本样本中每一
文本词对应的文本子特征, 遍历至少一个图像子
特征与文本子特征之间的相似度, 得到局部相似
度集合, 并基于局部相似度集合对识别模型进行
收敛, 得到目标识别模型, 以及采用目标识别模
型在对象图像中识别出目标对象的属性信息; 该
方案通过细化识别模型的约束粒度, 可以提升图
像识别的识别准确率。
权利要求书4页 说明书20页 附图2页
CN 115393606 A
2022.11.25
CN 115393606 A
1.一种图像识别方法, 包括:
获取训练样本集合, 并在所述训练样本集合中提取出至少一个训练样本对, 所述至少
一个训练样本对中的每一训练样本对 包括图像样本和文本样本;
采用识别模型对所述每一训练样本对进行特征提取, 得到所述图像样本的图像特征和
所述文本样本的文本特 征;
在所述图像特征中提取出预设尺寸的特征区域对应的至少一个图像子特征, 并在所述
文本特征中识别出 所述文本样本中每一文本词对应的文本 子特征;
遍历所述至少一个图像子特征与所述文本子特征之间的相似度, 得到局部相似度集
合, 并基于所述局部相似度集 合对所述识别模型进行收敛, 得到目标识别模型; 以及
采用所述目标识别模型在对象图像中识别出目标对象的属性信息 。
2.根据权利要求1所述的图像识别方法, 其中, 所述训练样本集合包括全量对象的全量
样本集合和所述目标对象的测试样本集合, 所述全量样本集合的样本数量大于所述测试样
本集合的样本数量; 以及
所述在所述训练样本集 合中提取 出至少一个训练样本对, 包括:
在所述全量样本集 合中提取 出至少一个候选样本对;
在所述测试样本集 合中提取 出至少一个测试样本对; 以及
将所述至少一个候选样本对和所述至少一个测试样本对作为所述至少一个训练样本
对。
3.根据权利要求1所述的图像识别方法, 其中, 所述在所述图像特征中提取出预设尺寸
的特征区域对应的至少一个图像子特征, 并在所述文本特征中识别出所述文本样本中每一
文本词对应的文本 子特征, 包括:
获取所述图像特征与 所述文本特征之间的相似度, 得到所述至少一个训练样本对对应
的全局相似度集 合;
基于所述全局相似度集合, 在所述至少一个训练样本对中筛选出目标训练样本对; 以
及
基于所述目标训练样本对, 在所述图像特征中提取出预设尺寸的特征区域对应的至少
一个图像子特征, 并在所述文本特征中识别出所述文本样本中每一文本词对应的文本子特
征。
4.根据权利要求3所述的图像识别方法, 其中, 所述目标训练样本对包括目标图像样本
和目标文本样本; 以及
所述基于所述目标训练样本对, 在所述图像特征中提取出预设尺寸的特征区域对应的
至少一个图像子特征, 并在所述文本特征中识别出所述文本样本中每一文本词对应的文本
子特征, 包括:
在所述图像特征中筛选出所述目标图像样本的目标图像特征, 并在所述文本特征中筛
选出所述目标文本样本的目标文本特 征;
在所述目标图像特 征中提取 出预设尺寸的特 征区域对应的至少一个图像子特 征; 以及
在所述目标文本特 征中提取 出所述目标文本样本中每一文本词对应的文本 子特征。
5.根据权利要求3所述的图像识别方法, 其中, 所述基于所述全局相似度集合, 在所述
至少一个训练样本对中筛 选出目标训练样本对, 包括:权 利 要 求 书 1/4 页
2
CN 115393606 A
2基于所述全局相似度集 合, 确定所述每一训练样本对 对应的全局损失信息;
基于所述每一训练样本对对应的所述图像特征、 所述文本特征以及所述全局损失信
息, 确定所述每一训练样本对的采样概 率; 以及
基于所述采样概 率, 在所述至少一个训练样本对中筛 选出目标训练样本对。
6.根据权利要求5所述的图像识别方法, 其中, 所述基于所述全局相似度集合, 确定所
述每一训练样本对 对应的全局损失信息, 包括:
在所述全局相似度集合中筛选出所述每一训练样本对对应的相似度, 得到目标全局相
似度;
基于所述目标全局相似度, 获取所述每一训练样本对对应的所述图像特征与 所述文本
特征之间的特 征差值; 以及
基于所述特 征差值, 确定每一训练样本对 对应的全局损失信息 。
7.根据权利要求5所述的图像识别方法, 其中, 所述基于所述每一训练样本对对应的所
述图像特征、 所述文本特征以及所述全局损失信息, 确定所述每一训练样本对的采样概率,
包括:
基于所述全局损失信息, 确定所述每一训练样本对 对应的梯度; 以及
通过所述识别模型的采样网络, 基于所述每一训练样本对对应的所述图像特征、 所述
文本特征和所述梯度, 确定所述每一训练样本对的采样概 率。
8.根据权利要求5所述的图像识别方法, 其中, 所述识别模型包括编码网络和采样网
络; 以及
所述基于所述局部相似度集 合对所述识别模型进行收敛, 得到目标识别模型, 包括:
基于所述采样网络、 所述全局损 失信息和所述局部相似集合, 对所述编码网络进行预
设第一次数的编码训练, 得到目标编码网络;
基于所述目标编码网络, 对所述采样网络进行预设第二次数的采样训练, 得到目标采
样网络;
将所述目标编码网络和目标采样网络作为当前识别模型, 并将所述识别模型更新为所
述当前识别模型; 以及
返回执行所述采用识别模型对所述每一训练样本对进行特征提取的步骤, 直至所述识
别模型收敛, 得到所述目标识别模型。
9.根据权利要求8所述的图像识别方法, 其中, 所述预设第 一次数大于所述第 二预设次
数, 所述预设第一次数与所述预设第二次数之间的比值 为预设比值。
10.根据权利要求8所述的图像识别方法, 其中, 所述基于所述采样网络、 所述全局损失
信息和所述局部相似集合, 对所述编码网络进行预设第一次数的编码训练, 得到目标编码
网络, 包括:
基于所述全局损失信息和 局部相似度集 合, 确定所述编码网络的编码损失信息;
基于所述编码损失信息对所述编码网络的网络参数进行 更新, 得到当前编码网络;
将所述当前编码网络和采样网络作为候选识别模型, 并将所述识别模型更新为所述候
选识别模型; 以及
返回执行所述采用识别模型对所述每一训练样本对进行特征提取的步骤, 直至更新 次
数达到预设第一次数时为止, 得到所述目标编码网络 。权 利 要 求 书 2/4 页
3
CN 115393606 A
3
专利 图像识别的方法和系统
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:56上传分享