(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210550538.4
(22)申请日 2022.05.20
(71)申请人 京东科技信息技 术有限公司
地址 100176 北京市北京经济技 术开发区
科创十一 街18号院2号楼6层6 01
(72)发明人 何凤翔
(74)专利代理 机构 中原信达知识产权代理有限
责任公司 1 1219
专利代理师 冯亚娥 杨倩
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/22(2022.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种视频动作定位方法和装置
(57)摘要
本发明公开了一种视频动作定位方法和装
置, 涉及计算机视觉技术领域。 该方法的一具体
实施方式包括: 将待处理视频的视频序列输入预
先训练好的视频动作定位模型; 通过视频动作定
位模型从视频序列中提取出视频特征参数; 基于
视频特征参数和视频动作定位模型包括的分类
分支子模型, 确定待处理视频包括的动作类型;
基于视频特征参数和视频动作定位模型包括的
定位分支子模 型, 对待处理视频包括的动作类型
进行定位; 根据分类分支子模型确定出的动作类
型, 对定位的结果进行调整。 该实施方式有效地
提高动作分类以及定位的准确性。
权利要求书3页 说明书11页 附图7页
CN 114842396 A
2022.08.02
CN 114842396 A
1.一种视频动作定位方法, 其特 征在于, 包括:
将待处理视频的视频序列输入预 先训练好的视频动作定位模型;
通过所述视频动作定位模型从所述视频序列中提取 出视频特征参数;
基于所述视频特征参数和所述视频动作定位模型包括的分类分支子模型, 确定所述待
处理视频包括的动作类型;
基于所述视频特征参数和所述视频动作定位模型包括的定位分支子模型, 对所述待处
理视频包括的动作类型进行定位;
根据所述分类分支子模型确定出的所述动作类型, 对定位的结果进行调整。
2.根据权利要求1所述的视频动作定位方法, 其特 征在于,
所述分类分支子模型包括: 训练出的第一卷积神经网络以及训练出的重要性注意机
制;
所述确定所述待处 理视频包括的动作类型, 包括:
将所述视频特征参数输入所述第 一卷积神经网络, 并将所述卷积神经网络输出的调整
后的第一视频 特征参数, 输入所述重要性注意机制;
所述重要性注意机制基于所述第 一视频特征参数, 计算所述待处理视频包括的动作属
于预设的动作类型的分数;
根据计算的结果, 确定所述待处 理视频包括的动作所属的动作类型。
3.根据权利要求1所述的视频动作定位方法, 其特 征在于,
所述定位分支子模型包括: 训练出的第二卷积神经网络、 训练出的特征统一子模块以
及训练出的重要性注意机制;
所述对所述待处 理视频包括的动作类型进行定位, 包括:
将所述视频特征参数输入所述第 二卷积神经网络, 并将输出的调整后的第 二视频特征
参数, 输入所述特 征统一子模块;
所述特征统一子模块将所述第 二视频特征参数包括的多个相似特征合并为矫正特征,
将所述矫正特征输入所述重要性注意机制;
所述重要性注意机制基于所述矫正特征, 计算所述待处理视频包括的动作属于预设的
动作类型分数;
根据计算的结果, 确定所述待处理视频包括的动作所属的动作类型, 并对所述动作进
行定位。
4.根据权利要求1所述的视频动作定位方法, 其特征在于, 所述对定位的结果进行调
整, 包括:
将所述分类分支子模型确定出的所述动作类型和所述定位分支子模型的定位的结果
叠加到所述视频序列;
根据叠加后的结果, 修 正定位的结果。
5.根据权利要求2或3所述的视频动作定位方法, 其特征在于, 所述计算所述待处理视
频包括的动作属于预设的动作类型分数, 包括:
针对所述待处理视频包括的每一个时间步视频片段, 执行计算所述 时间步视频片段包
括的动作属于预设的每一种动作类型的概 率;
针对预设的每一种动作类型, 执行根据每一个所述 时间步视频片段属于所述动作类型权 利 要 求 书 1/3 页
2
CN 114842396 A
2的概率, 计算所述待处 理视频包括的动作属于所述动作类型的分数。
6.根据权利要求3所述的视频动作定位方法, 其特征在于, 所述将所述第 二视频特征参
数包括的多个相似特 征合并为 矫正特征, 包括:
计算所述第二视频 特征参数包括的多个特 征中的每两个所述特 征之间的相似度;
根据每两个所述特 征之间的相似度, 计算每两个所述特 征的相似权 重;
根据每两个所述特 征的相似度以及相似权 重, 计算矫正特征。
7.根据权利要求3所述的视频动作定位方法, 其特征在于, 所述确定所述待处理视频包
括的动作所属的动作类型, 并对所述动作进行定位, 包括:
根据计算出的所述待处理视频包括的动作属于预设的动作类型的分数, 计算所述待处
理视频包括的动作属于预设的动作类型的分类置信度;
根据计算出的所述分类置信度, 确定所述待处 理视频包括的动作所属的动作类型;
根据所述待处 理视频包括的动作在所述视频序列中的位置, 对所述动作进行定位。
8.根据权利要求1所述的视频动作定位方法, 其特 征在于, 还 包括:
针对每一个迭代训练周期, 执 行:
将训练用样本 输入上一个迭代周期调整后的卷积神经网络;
将卷积神经网络的输出 结果, 输入到上一个迭代周期调整后的特 征统一子模块;
将所述特征统一子模块的输出结果, 输入到上一个迭代周期调整后的重要性注意机
制;
根据所述重要性注意机制输出的结果, 判断所述重要性注意机制输出的结果或者迭代
周期是否满足停止迭代的条件, 如果是, 则结束迭代, 否则, 调整 所述卷积神经网络、 所述特
征统一子模块以及所述重要性注意机制。
9.根据权利要求8所述的视频动作定位方法, 其特 征在于, 还 包括:
将训练好的卷积神经网络以及训练好的重要性注意机制封装成所述分类分支子模型;
将训练好的卷积神经网络、 训练好的特征统一子模块以及训练好的重要性注意机制封
装成所述定位分支子模型。
10.一种视频动作定位装置, 其特 征在于, 包括: 输入 模块以及视频处 理模块, 其中,
所述输入模块, 用于将待处理视频的视频序列输入所述视频处理模块中的预先训练好
的视频动作定位模型;
所述视频处理模块, 用于通过所述视频动作定位模型从所述视频序列中提取出视频特
征参数; 基于所述视频特征参数和所述视频动作定位模型包括的分类分支子模型, 确定所
述待处理视频包括的动作类型; 基于所述视频特征参数和所述视频动作定位模型包括的定
位分支子模型, 对所述待处理视频包括的动作类型进行定位; 根据所述分类分支子模型确
定出的所述动作类型, 对定位的结果进行调整。
11.一种电子设备, 其特 征在于, 包括:
一个或多个处 理器;
存储装置, 用于存 储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实
现如权利要求1 ‑9中任一所述的方法。
12.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执权 利 要 求 书 2/3 页
3
CN 114842396 A
3
专利 一种视频动作定位方法和装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:58上传分享