(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211090010.X
(22)申请日 2022.09.07
(71)申请人 杭州笔声智能科技有限公司
地址 311100 浙江省杭州市余杭区余杭街
道文一西路1818-2号5幢518- 520室
(72)发明人 张明 张伟伟
(74)专利代理 机构 北京维正专利代理有限公司
11508
专利代理师 黄春晓
(51)Int.Cl.
G06F 16/783(2019.01)
G06F 16/78(2019.01)
G06Q 10/10(2012.01)
(54)发明名称
一种会议视频检索方法、 装置及存 储介质
(57)摘要
本申请涉及视频检索的领域, 尤其是涉及一
种会议视频检索方法、 装置及存储介质, 其包括
获取视频源; 根据预设的第一逻辑定义规则从视
频源中获得图像语义结果, 并在图像语义结果中
添加相对应的第一时间戳; 获取视频源中的音 频
源, 并将音频源进行解析 以得到音频文字; 根据
预设的第二逻辑定义规则从音频源中获取音频
语义结果, 并在音频语义结果中添加相对应的第
二时间戳; 将图像语义结果和音频语义结果保存
至检索引擎库; 基于检索关键信息获得检索引擎
库内相应的图像语义结果和/或音频语义结果;
根据图像语义结果和/或音 频语义结果内的第一
时间戳和/或第二时间戳得到相对应的视频源片
段。 本申请具有提高会议过程中对视频的检索效
果。
权利要求书3页 说明书10页 附图5页
CN 115168650 A
2022.10.11
CN 115168650 A
1.一种会议视频检索方法, 其特 征在于, 包括以下步骤:
获取视频源, 并获取 所述视频源中的实体;
根据预设的第 一逻辑定义规则从所述视频源中获得图像语义结果, 第 一逻辑定义规则
至少包括位置关系、 逻辑关系、 动作关系、 知识关系, 并在所述图像语义结果中添加相对应
的第一时间戳;
获取所述视频源中的音频源, 并将所述音频源进行解析以得到音频文字;
根据预设的第 二逻辑定义规则从所述音频源中获取音频语义结果, 第 二逻辑定义规则
至少包括性别关系、 语 言方言关系、 背 景音乐关系, 并在所述音 频语义结果中添加相对应的
第二时间戳;
将所述图像 语义结果和所述音频语义结果保存至检索引擎库;
基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图像语义结果
和/或音频语义结果;
根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应
的视频源片段。
2.根据权利要求1所述的一种 会议视频检索方法, 其特征在于: 根据第 一逻辑定义规则
从所述视频源中获得图像 语义结果, 包括:
根据所述视频源中的实体识别出 所有实体名称;
根据各所述实体之间的位置关系获得位置 评价;
根据各所述实体之间的逻辑关系获得逻辑评价;
根据各所述实体之间的动作关系获得动作评价;
根据各所述实体的知识关系获得延伸知识评价;
结合所述 位置评价、 逻辑评价、 动作评价和延伸知识评价获得图像 语义结果。
3.根据权利要求1所述的一种 会议视频检索方法, 其特征在于: 根据第 二逻辑定义规则
从所述音频源中获取音频语义结果, 包括:
根据所述音频源中的人声获取 所述人声的性别, 并生成相应的性别标签;
根据所述音频源中的人声获取 所述人声的语言、 方言, 并生成相应的语言方言标签;
根据所述音频源中的背景音获取所述背景音中的背景音乐, 并生成相应的背景音乐标
签;
将所述性别标签、 语言方言标签和背景音乐标签添加至相对应的所述音频文字 中以获
得音频语义结果。
4.根据权利要求1所述的一种 会议视频检索方法, 其特征在于: 在所述图像语义结果中
添加相对应的第一时间戳, 在所述音频语义结果中添加相对应的第二时间戳, 包括以下步
骤:
以预设时间为间隔获取视频源中的相关帧图像, 获取所述相关 帧图像在所述视频源中
所处的第一时间, 并根据第一时间生成相应的第一时间戳;
获取若干所述相关帧图像所对应的图像语义结果, 并将所述第 一时间戳添加至所述图
像语义结果中;
以预设长度为间隔对所述音频文字进行打断, 以获取相应的文字段, 获取所述若干文
字段在所述音频源中所处的第二时间, 并根据第二时间生成相应的第二时间戳;权 利 要 求 书 1/3 页
2
CN 115168650 A
2获取若干所述文字段所对应的音频语义结果, 并将所述第 二时间戳添加至所述音频语
义结果中。
5.根据权利要求1所述的一种 会议视频检索方法, 其特征在于: 所述检索 关键信息包括
检索关键词信息, 基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图
像语义结果和/或音频语义结果, 包括:
获取检索关键词信息;
判断所述检索引擎库中是否存在与所述关键词信息的关联度大于第一预设值的图像
语义结果和/或音频语义结果;
若存在, 则获得相对应的图像 语义结果和/或音频语义结果。
6.根据权利要求5所述的一种 会议视频检索方法, 其特征在于: 所述检索 关键信息还包
括检索关键句 信息, 基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的
图像语义结果和/或音频语义结果, 还 包括:
获取检索关键句信息;
根据预设的选词方法对所述检索关键句信 息进行选词以获取若干关键句字段信 息, 所
述关键句字段信息包括名词字段信息、 描述词字段信息和辅助词字段信息;
判断所述检索引擎库内中是否存在与所述名词字段信 息、 描述词字段信 息和辅助词字
段信息的关联度大于第二预设值的图像 语义结果和/或音频语义结果。
7.根据权利要求1所述的一种会议视频检索方法, 其特征在于: 根据图像语义结果和/
或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段, 包括:
判断所述图像 语义结果和/或音频语义结果的个数;
若所述图像 语义结果和/或音频语义结果的个数小于1, 则输出异常信息;
若所述图像语义结果和/或音频语义结果的个数等于1, 则 选择该第 一时间戳或第二 时
间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为视频源片段;
若所述图像语义结果和/或音频语义结果的个数大于1, 则选择所有第一时间戳和/或
第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为备选视频
源片段, 并基于 选择获取相应的视频源片段。
8.根据权利要求1所述的一种会议视频检索方法, 其特 征在于: 还 包括以下步骤:
获取录音源, 所述录音源表征为会议中现场录制的声源中剔除视频源中的音频源后得
到的参会人声源;
将所述录音源进行解析以得到 录音文字;
根据预设的第 二逻辑定义规则从所述录音源中获取录音语义结果, 第 二逻辑定义规则
至少包括性别关系、 语 言方言关系、 背 景音乐关系, 并在所述录音语义结果中添加相对应的
第三时间戳;
将所述录音语义结果保存至检索引擎库;
基于检索引擎中被输入的检索关键信息获得 所述检索引擎库内相应的录音语义结果;
根据录音语义结果内的第三时间戳得到相对应的视频源片段。
9.一种会议视频检索装置, 其特 征在于, 包括:
服务器, 用于获取视频源, 并获取 所述视频源中的实体;
根据预设的第 一逻辑定义规则从所述视频源中获得图像语义结果, 第 一逻辑定义规则权 利 要 求 书 2/3 页
3
CN 115168650 A
3
专利 一种会议视频检索方法、装置及存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:32上传分享