专利 搜索方法、模型训练方法、装置、电子设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210618907.9 (22)申请日 2022.06.01 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人杨敏　朱若琳　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/732(2019.01) G06F 16/75(2019.01) G06F 16/9535(2019.01) G06V 20/40(2022.01)G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称搜索方法、模型训练方法、装置、电子设备和介质 (57)摘要本公开提供了一种搜索方法、模型训练方法、装置、电子设备和介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于视频处理等场景。具体实现方案为：获取对多个候选视频分别进行特征提取得到的局部特征和语义特征，局部特征用于表征对应候选视频的风格、外观中的至少一项，语义特征用于表征对应候选视频中内容主体所属的类别；对局部特征和语义特征进行特征融合，得到融合特征。由此，在根据文本搜索视频的场景下，同时基于各候选视频的语义特征(即深层特征)和局部特征(即浅层特征)，从各候选视频中确定与搜索文本匹配的目标视频，可提升确定结果的可靠性，从而使得视频搜索结果能够满足用户的实际搜索需求。权利要求书6页说明书25页附图10页 CN 115033739 A 2022.09.09 CN 115033739 A 1.一种搜索方法，包括：获取搜索文本以及多个候选视频；获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征，其中，所述局部特征用于表征对应候选视频的风格、外观中的至少一项，所述语义特征用于表征对应候选视频中内容主体所属的类别；对所述局部特征和所述语义特征进行特征融合，以得到融合特征；根据所述搜索文本的特征与各所述候选视频的融合特征之间的相关性，从所述多个候选视频中确定与所述搜索文本匹配的目标视频。 2.根据权利要求1所述的方法，其中，所述获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征，包括：将所述多个候选视频中任意的一个作为输入视频，并输入视频特征提取网络，以得到所述输入视频的语义特征；将所述输入视频中的至少一个视频帧输入图像特征提取网络，以得到所述输入视频中至少一个视频帧的语义特征；将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络，以得到各所述视频帧的局部特征；将所述输入视频输入第二局部分支网络，以得到所述输入视频的局部特征。 3.根据权利要求2所述的方法，其中，所述将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络，以得到各所述视频帧的局部特征，包括：对任一所述视频帧，根据各像素点在多个色彩通道上的像素值，生成第一数组；其中，所述第一数组中的元素为像素值，各所述元素具有指示所属色彩通道的第一维度，指示所属像素点的行位置的第二维度，以及指示所属像素点的列位置的第三维度；采用滑动窗口将所述第一数组，划分为多个第一子数组，其中，相邻第一子数组之间存在交叠元素；采用所述第一局部分支网络的特征提取层分别对各所述第一子数组进行特征提取；采用所述第一局部分支网络的窗口合并层，将各所述第一子数组的特征进行融合；将所述融合后的特征输入所述第一局部分支网络的输出层，以得到所述视频帧的局部特征。 4.根据权利要求2所述的方法，其中，所述将所述输入视频输入第二局部分支网络，以得到所述输入视频的局部特征，包括：根据所述输入视频中各视频帧，生成第二数组；其中，所述第二数组中的元素为像素值，各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度，指示所属像素点的行位置的第二维度，以及指示所属像素点的列位置的第三维度；采用滑动窗口将所述第二数组，划分为多个第二子数组，其中，相邻第二子数组之间存在交叠元素；采用所述第二局部分支网络的特征提取层分别对各所述第二子数组进行特征提取；采用所述第二局部分支网络的窗口合并层，将各所述第二子数组的特征进行融合；将所述融合后的特征输入所述第二局部分支网络的输出层，以得到所述输入视频的局部特征。权　利　要　求　书 1/6 页 2 CN 115033739 A 25.根据权利要求3或4所述的方法，其中，所述特征提取层包括至少一层编码层，所述编码层包括多头自注意力模块MSA和前馈网络F FN。 6.根据权利要求3或4所述的方法，其中，所述输出层采用分段线性函数作为激活函数。 7.一种模型训练方法，包括：获取训练样本，所述训练样本中包括样本文本和对应的多个样本视频，其中，所述样本文本标注有所述多个样本视频与所述样本文本之间的相关性标注信息；采用搜索模型对所述多个样本视频分别进行特征提取，得到局部特征和语义特征，以及对所述局部特征和所述语义特征进行融合，得到融合特征；其中，所述局部特征用于表征对应样本视频的风格、外观中的至少一项，所述语义特征用于表征对应样本视频中内容主体所属的类别；根据所述样本文本的特征与各所述样本视频的融合特征，确定所述样本文本与各所述样本视频之间的相关性预测信息；根据所述相关性标注信息和所述相关性预测信息之间的差异，对所述搜索模型进行模型参数调整。 8.根据权利要求7所述的方法，其中，所述采用搜索模型对所述多个样本视频分别进行特征提取，得到局部特征和语义特征，包括：将所述多个样本视频中任意的一个作为输入视频，输入所述搜索模型的视频特征提取网络，以得到所述输入视频的语义特征；将所述输入视频中的至少一个视频帧输入所述搜索模型的图像特征提取网络，以得到所述输入视频中至少一个视频帧的语义特征；将所述至少一个视频帧中的各视频帧分别输入所述搜索模型的第一局部分支网络，以得到各所述视频帧的局部特征；将所述输入视频输入所述搜索模型的第二局部分支网络，以得到所述输入视频的局部特征。 9.根据权利要求8所述的方法，其中，所述将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络，以得到各所述视频帧的局部特征，包括：对任一所述视频帧，根据各像素点在多个色彩通道上的像素值，生成第一数组；其中，所述第一数组中的元素为像素值，各所述元素具有指示所属色彩通道的第一维度，指示所属像素点的行位置的第二维度，以及指示所属像素点的列位置的第三维度；采用滑动窗口将所述第一数组，划分为多个第一子数组，其中，相邻第一子数组之间存在交叠元素；采用所述第一局部分支网络的特征提取层分别对各所述第一子数组进行特征提取；采用所述第一局部分支网络的窗口合并层，将各所述第一子数组的特征进行融合；将所述融合后的特征输入所述第一局部分支网络的输出层，以得到所述视频帧的局部特征。 10.根据权利要求8所述的方法，其中，所述将所述输入视频输入第二局部分支网络，以得到所述输入视频的局部特征，包括：根据所述输入视频中各视频帧，生成第二数组；其中，所述第二数组中的元素为像素值，各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度，指示所属像素点权　利　要　求　书 2/6 页 3 CN 115033739 A 3

专利 搜索方法、模型训练方法、装置、电子设备和介质

专利搜索方法、模型训练方法、装置、电子设备和介质