(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210618907.9
(22)申请日 2022.06.01
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦二层
(72)发明人 杨敏 朱若琳
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 罗岚
(51)Int.Cl.
G06F 16/783(2019.01)
G06F 16/732(2019.01)
G06F 16/75(2019.01)
G06F 16/9535(2019.01)
G06V 20/40(2022.01)G06V 10/74(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
搜索方法、 模型训练方法、 装置、 电子设备和
介质
(57)摘要
本公开提供了一种搜索方法、 模型训练方
法、 装置、 电子设备和介质, 涉及人工智能技术领
域, 具体为深度学习、 图像处理、 计算机视觉技术
领域, 可应用于视频处理等场景。 具体实现方案
为: 获取对多个候选视频分别进行特征提取得到
的局部特征和语义特征, 局部特征用于表征对应
候选视频的风格、 外观中的至少一项, 语义特征
用于表征对应候选视频中内容主体所属的类别;
对局部特征和语义特征进行特征融合, 得到融合
特征。 由此, 在根据文本搜索视频的场景下, 同时
基于各候选视频的语义特征(即深层特征)和局
部特征(即浅层特征), 从各候选视频中确定与搜
索文本匹配的目标视频, 可提升确定结果的可靠
性, 从而使得视频搜索结果能够满足用户的实际
搜索需求。
权利要求书6页 说明书25页 附图10页
CN 115033739 A
2022.09.09
CN 115033739 A
1.一种搜索方法, 包括:
获取搜索文本以及多个候选 视频;
获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征, 其中, 所述
局部特征用于表征对应候选视频 的风格、 外观中的至少一项, 所述语义特征用于表征对应
候选视频中内容主体所属的类别;
对所述局部特 征和所述语义特 征进行特征融合, 以得到融合特 征;
根据所述搜索文本的特征与 各所述候选视频的融合特征之间的相关性, 从所述多个候
选视频中确定与所述搜索文本匹配的目标视频。
2.根据权利要求1所述的方法, 其中, 所述获取对所述多个候选视频分别进行特征提取
得到的局部特 征和语义特 征, 包括:
将所述多个候选视频中任意的一个作为输入视频, 并输入视频特征提取网络, 以得到
所述输入视频的语义特 征;
将所述输入视频中的至少一个视频帧输入图像特征提取网络, 以得到所述输入视频中
至少一个视频帧的语义特 征;
将所述至少一个视频帧中的各视频帧分别 输入第一局部分支网络, 以得到各所述视频
帧的局部特 征;
将所述输入视频输入第二局部分支网络, 以得到所述输入视频的局部特 征。
3.根据权利要求2所述的方法, 其中, 所述将所述至少一个视频帧中的各视频帧分别 输
入第一局部分支网络, 以得到各 所述视频帧的局部特 征, 包括:
对任一所述视频帧, 根据各像素点在多个色彩通道上的像素值, 生成第一数组; 其中,
所述第一数组中的元素为像素值, 各所述元素具有指示所属色彩通道的第一维度, 指示所
属像素点的行位置的第二维度, 以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第一数组, 划分为多个第 一子数组, 其中, 相邻第 一子数组之间存
在交叠元 素;
采用所述第一局部分支网络的特 征提取层分别对各 所述第一子数组进行 特征提取;
采用所述第一局部分支网络的窗口合并层, 将各 所述第一子数组的特 征进行融合;
将所述融合后的特征输入所述第 一局部分支网络的输出层, 以得到所述视频帧的局部
特征。
4.根据权利要求2所述的方法, 其中, 所述将所述输入视频输入第二局部分支网络, 以
得到所述输入视频的局部特 征, 包括:
根据所述输入视频中各视频帧, 生成第二数组; 其中, 所述第二数组中的元素为像素
值, 各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度, 指示所属像素点
的行位置的第二维度, 以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第二数组, 划分为多个第 二子数组, 其中, 相邻第 二子数组之间存
在交叠元 素;
采用所述第二局部分支网络的特 征提取层分别对各 所述第二子数组进行 特征提取;
采用所述第二局部分支网络的窗口合并层, 将各 所述第二子数组的特 征进行融合;
将所述融合后的特征输入所述第 二局部分支网络的输出层, 以得到所述输入视频的局
部特征。权 利 要 求 书 1/6 页
2
CN 115033739 A
25.根据权利要求3或4所述的方法, 其中, 所述特征提取层包括至少一层编码层, 所述编
码层包括多头自注意力模块MSA和前馈网络F FN。
6.根据权利要求3或4所述的方法, 其中, 所述输出层采用分段线性 函数作为激活函数。
7.一种模型训练方法, 包括:
获取训练样本, 所述训练样本 中包括样本文本和对应的多个样本视频, 其中, 所述样本
文本标注有所述多个样本 视频与所述样本文本之间的相关性标注信息;
采用搜索模型对所述多个样本视频分别进行特征提取, 得到局部特征和语义特征, 以
及对所述局部特征和所述语义特征进 行融合, 得到融合特征; 其中, 所述局部特征用于表征
对应样本视频 的风格、 外观中的至少一项, 所述语义特征用于表征对应样本视频中内容主
体所属的类别;
根据所述样本文本的特征与 各所述样本视频的融合特征, 确定所述样本文本与各所述
样本视频之间的相关性预测信息;
根据所述相关性标注信 息和所述相关性预测信 息之间的差异, 对所述搜索模型进行模
型参数调整。
8.根据权利要求7所述的方法, 其中, 所述采用搜索模型对所述多个样本视频分别进行
特征提取, 得到局部特 征和语义特 征, 包括:
将所述多个样本视频中任意的一个作为输入视频, 输入所述搜索模型的视频特征提取
网络, 以得到所述输入视频的语义特 征;
将所述输入视频中的至少一个视频帧输入所述搜索模型的图像特征提取网络, 以得到
所述输入视频中至少一个视频帧的语义特 征;
将所述至少一个视频帧中的各视频帧分别 输入所述搜索模型的第 一局部分支网络, 以
得到各所述视频帧的局部特 征;
将所述输入视频输入所述搜索模型的第 二局部分支网络, 以得到所述输入视频的局部
特征。
9.根据权利要求8所述的方法, 其中, 所述将所述至少一个视频帧中的各视频帧分别 输
入第一局部分支网络, 以得到各 所述视频帧的局部特 征, 包括:
对任一所述视频帧, 根据各像素点在多个色彩通道上的像素值, 生成第一数组; 其中,
所述第一数组中的元素为像素值, 各所述元素具有指示所属色彩通道的第一维度, 指示所
属像素点的行位置的第二维度, 以及指示所属像素点的列位置的第三维度;
采用滑动窗口将所述第一数组, 划分为多个第 一子数组, 其中, 相邻第 一子数组之间存
在交叠元 素;
采用所述第一局部分支网络的特 征提取层分别对各 所述第一子数组进行 特征提取;
采用所述第一局部分支网络的窗口合并层, 将各 所述第一子数组的特 征进行融合;
将所述融合后的特征输入所述第 一局部分支网络的输出层, 以得到所述视频帧的局部
特征。
10.根据权利要求8所述的方法, 其中, 所述将所述输入视频输入第 二局部分支网络, 以
得到所述输入视频的局部特 征, 包括:
根据所述输入视频中各视频帧, 生成第二数组; 其中, 所述第二数组中的元素为像素
值, 各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度, 指示所属像素点权 利 要 求 书 2/6 页
3
CN 115033739 A
3
专利 搜索方法、模型训练方法、装置、电子设备和介质
文档预览
中文文档
42 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共42页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:01上传分享