(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211014858.4
(22)申请日 2022.08.23
(65)同一申请的已公布的文献号
申请公布号 CN 115100725 A
(43)申请公布日 2022.09.23
(73)专利权人 浙江大华 技术股份有限公司
地址 310051 浙江省杭州市滨江区滨安路
1187号
(72)发明人 廖紫嫣 邸德宁 张姜 郝敬松
朱树磊 殷俊
(74)专利代理 机构 深圳市威世博知识产权代理
事务所(普通 合伙) 44280
专利代理师 何倚雯
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 20/40(2022.01)
G06V 10/74(2022.01)
G06V 10/762(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 114387567 A,202 2.04.22
CN 112733764 A,2021.04.3 0
CN 110096950 A,2019.08.0 6
CN 113762322 A,2021.12.07
CN 112417970 A,2021.02.26
CN 110796100 A,2020.02.14
CN 110674350 A,2020.01.10
CN 110147548 A,2019.08.20
CN 113569610 A,2021.10.2 9
CN 114817543 A,202 2.07.29
CN 113627218 A,2021.1 1.09
WO 2022141533 A1,202 2.07.07
US 2021012128 A1,2021.01.14
CN 114299321 A,202 2.04.08 (续)
审查员 杜学惠
(54)发明名称
目标识别方法、 目标识别装置以及计算机存
储介质
(57)摘要
本申请公开了一种目标识别方法、 目标识别
装置以及计算机存储介质, 该目标识别方法包
括: 基于至少一种模态的特征对待处理视频的所
有视频帧进行聚类, 从而将待处理视频为若干待
处理子视频; 对每一待处理子视频的多个模态的
原始视频特征进行编码, 得到每一待处理子视频
的多模态编码特征; 基于每一待处理子视频的多
模态编码特征, 以及近邻视频特征构建图网络;
利用图网络将每一待处理子视频的多模态编码
特征, 以及近邻视频特征进行融合, 得到最终的
融合特征, 并基于最终的融合特征对目标对象进
行识别。 本申请的目标识别方法能够通过一种全
新的建模 方式实现近邻级、 视频级和多模态级这三类不同层面信息的自适应融合, 提高特征识别
效果。
[转续页]
权利要求书3页 说明书11页 附图5页
CN 115100725 B
2022.11.22
CN 115100725 B
(56)对比文件
CN 114359796 A,202 2.04.15
WO 2021159896 A1,2021.08.19
CN 111507311 A,2020.08.07
CN 110334753 A,2019.10.15
CN 113723209 A,2021.1 1.30
CN 110855905 A,2020.02.28
罗文雯, .基 于图网络的多 模态特征学习算法研究与应用. 《中国优秀硕士学位 论文全文数
据库信息科技 辑》 .2021,第2021年卷(第5期),
Vivek Sharma 等, .Clusteri ng based
Contrastive Learn ing for Improvi ng Face
Representati ons. 《arXiv》 .2020,第2020年卷
Jingwen Hu 等, .M MGCN: Multimodal
Fusion via De ep Graph Co nvolution Network
for Emoti on Recogn ition in Conversati on.
《arXiv》 .2021,第2021年卷2/2 页
2[接上页]
CN 115100725 B1.一种目标识别方法, 其特 征在于, 所述目标识别方法包括:
获取待处理视频, 及其近邻视频特征, 其中, 所述近邻 视频特征基于多个近邻 视频的特
征确定, 所述近邻视频为具有不同模态中至少一种模态的特征的视频, 所述近邻视频通过
视频库的视频的视频 特征与所述待处 理视频的视频 特征的相似度大小选择;
基于至少一种模态的特征对所述待处理视频的所有视频帧进行聚类, 从而将所述待处
理视频为若干待处 理子视频;
对每一待处理子视频的多个模态的原始视频特征进行编码, 得到所述每一待处理子视
频的多模态编码特 征;
基于所述每一待处理子视频的多模态编码特征, 以及所述近邻视频特征构建图网络,
其中, 所述图网络的图节点包括所述每一待处理子视频的多模态编 码特征以及近邻视频特
征, 不同待处理子视频的多模态编码特征之间设置有连接边, 所述每一待处理子视频的多
模态编码特 征与近邻视频 特征之间设置有连接边;
利用所述图网络将所述每一待处理子视频的多模态编码特征, 以及所述近邻 视频特征
进行融合, 得到最终的融合特 征, 并基于所述 最终的融合特 征对所述目标对象进行识别;
所述对每一待处理子视频的多个模态的原始视频特征进行编码, 得到所述每一待处理
子视频的多模态编码特 征, 包括:
对所述每一待处理子视频中至少一种 模态的原始视频特征进行第 一池化操作, 得到第
一池化视频 特征;
对所述每一待处理子视频中其他模态的原始视频特征进行第 二池化操作, 得到第 二池
化视频特征;
将所述第一池化视频 特征与所述第二池化视频 特征进行拼接;
对拼接后的视频 特征进行编码, 得到所述每一待处 理子视频的多模态编码特 征。
2.根据权利要求1所述的目标识别方法, 其特 征在于,
所述基于所述每一待处理子视频的多模态编码特征, 以及所述近邻 视频特征构建图网
络, 包括:
确定由所述近邻视频 特征和所述多模态编码特 征共同组成的特 征矩阵;
获取与所述特征矩阵对应的邻接矩阵; 其中, 所述邻接矩阵表征所述特征矩阵中不同
特征之间进行融合的连接关系;
基于所述特 征矩阵和所述邻接矩阵, 构建所述图网络;
所述利用所述图网络将所述每一待处理子视频的多模态编码特征, 以及所述近邻 视频
特征进行融合, 得到最终的融合特 征, 包括:
通过对所述特 征矩阵以及所述邻接矩阵进行聚合, 得到所述待处 理视频的融合特 征。
3.根据权利要求2所述的目标识别方法, 其特征在于, 所述获取所述特征矩阵对应的邻
接矩阵, 包括:
确定所述多所述特 征矩阵中每两个特 征之间进行融合的连接 权重;
根据确定的连接 权重, 得到由所述确定的连接 权重组成的邻接矩阵。
4.根据权利要求3所述的目标识别方法, 其特征在于, 所述确定所述多所述特征矩阵中
每两个特 征之间进行融合的连接 权重, 包括:
获取不同待处理子视频的多模态编码特征之间的第 一距离, 基于所述第 一距离以及预权 利 要 求 书 1/3 页
2
CN 115100725 B
3
专利 目标识别方法、目标识别装置以及计算机存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:47上传分享