专利 一种会议视频检索方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211090010.X (22)申请日 2022.09.07 (71)申请人杭州笔声智能科技有限公司地址 311100 浙江省杭州市余杭区余杭街道文一西路1818-2号5幢518- 520室 (72)发明人张明　张伟伟　 (74)专利代理机构北京维正专利代理有限公司 11508 专利代理师黄春晓 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/78(2019.01) G06Q 10/10(2012.01) (54)发明名称一种会议视频检索方法、装置及存储介质 (57)摘要本申请涉及视频检索的领域，尤其是涉及一种会议视频检索方法、装置及存储介质，其包括获取视频源；根据预设的第一逻辑定义规则从视频源中获得图像语义结果，并在图像语义结果中添加相对应的第一时间戳；获取视频源中的音频源，并将音频源进行解析以得到音频文字；根据预设的第二逻辑定义规则从音频源中获取音频语义结果，并在音频语义结果中添加相对应的第二时间戳；将图像语义结果和音频语义结果保存至检索引擎库；基于检索关键信息获得检索引擎库内相应的图像语义结果和/或音频语义结果；根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段。本申请具有提高会议过程中对视频的检索效果。权利要求书3页说明书10页附图5页 CN 115168650 A 2022.10.11 CN 115168650 A 1.一种会议视频检索方法，其特征在于，包括以下步骤：获取视频源，并获取所述视频源中的实体；根据预设的第一逻辑定义规则从所述视频源中获得图像语义结果，第一逻辑定义规则至少包括位置关系、逻辑关系、动作关系、知识关系，并在所述图像语义结果中添加相对应的第一时间戳；获取所述视频源中的音频源，并将所述音频源进行解析以得到音频文字；根据预设的第二逻辑定义规则从所述音频源中获取音频语义结果，第二逻辑定义规则至少包括性别关系、语言方言关系、背景音乐关系，并在所述音频语义结果中添加相对应的第二时间戳；将所述图像语义结果和所述音频语义结果保存至检索引擎库；基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图像语义结果和/或音频语义结果；根据图像语义结果和/或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段。 2.根据权利要求1所述的一种会议视频检索方法，其特征在于：根据第一逻辑定义规则从所述视频源中获得图像语义结果，包括：根据所述视频源中的实体识别出所有实体名称；根据各所述实体之间的位置关系获得位置评价；根据各所述实体之间的逻辑关系获得逻辑评价；根据各所述实体之间的动作关系获得动作评价；根据各所述实体的知识关系获得延伸知识评价；结合所述位置评价、逻辑评价、动作评价和延伸知识评价获得图像语义结果。 3.根据权利要求1所述的一种会议视频检索方法，其特征在于：根据第二逻辑定义规则从所述音频源中获取音频语义结果，包括：根据所述音频源中的人声获取所述人声的性别，并生成相应的性别标签；根据所述音频源中的人声获取所述人声的语言、方言，并生成相应的语言方言标签；根据所述音频源中的背景音获取所述背景音中的背景音乐，并生成相应的背景音乐标签；将所述性别标签、语言方言标签和背景音乐标签添加至相对应的所述音频文字中以获得音频语义结果。 4.根据权利要求1所述的一种会议视频检索方法，其特征在于：在所述图像语义结果中添加相对应的第一时间戳，在所述音频语义结果中添加相对应的第二时间戳，包括以下步骤：以预设时间为间隔获取视频源中的相关帧图像，获取所述相关帧图像在所述视频源中所处的第一时间，并根据第一时间生成相应的第一时间戳；获取若干所述相关帧图像所对应的图像语义结果，并将所述第一时间戳添加至所述图像语义结果中；以预设长度为间隔对所述音频文字进行打断，以获取相应的文字段，获取所述若干文字段在所述音频源中所处的第二时间，并根据第二时间生成相应的第二时间戳；权　利　要　求　书 1/3 页 2 CN 115168650 A 2获取若干所述文字段所对应的音频语义结果，并将所述第二时间戳添加至所述音频语义结果中。 5.根据权利要求1所述的一种会议视频检索方法，其特征在于：所述检索关键信息包括检索关键词信息，基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图像语义结果和/或音频语义结果，包括：获取检索关键词信息；判断所述检索引擎库中是否存在与所述关键词信息的关联度大于第一预设值的图像语义结果和/或音频语义结果；若存在，则获得相对应的图像语义结果和/或音频语义结果。 6.根据权利要求5所述的一种会议视频检索方法，其特征在于：所述检索关键信息还包括检索关键句信息，基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的图像语义结果和/或音频语义结果，还包括：获取检索关键句信息；根据预设的选词方法对所述检索关键句信息进行选词以获取若干关键句字段信息，所述关键句字段信息包括名词字段信息、描述词字段信息和辅助词字段信息；判断所述检索引擎库内中是否存在与所述名词字段信息、描述词字段信息和辅助词字段信息的关联度大于第二预设值的图像语义结果和/或音频语义结果。 7.根据权利要求1所述的一种会议视频检索方法，其特征在于：根据图像语义结果和/ 或音频语义结果内的第一时间戳和/或第二时间戳得到相对应的视频源片段，包括：判断所述图像语义结果和/或音频语义结果的个数；若所述图像语义结果和/或音频语义结果的个数小于1，则输出异常信息；若所述图像语义结果和/或音频语义结果的个数等于1，则选择该第一时间戳或第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为视频源片段；若所述图像语义结果和/或音频语义结果的个数大于1，则选择所有第一时间戳和/或第二时间戳提前预设秒数后的帧图像至该视频源最后一帧之间的视频长度作为备选视频源片段，并基于选择获取相应的视频源片段。 8.根据权利要求1所述的一种会议视频检索方法，其特征在于：还包括以下步骤：获取录音源，所述录音源表征为会议中现场录制的声源中剔除视频源中的音频源后得到的参会人声源；将所述录音源进行解析以得到录音文字；根据预设的第二逻辑定义规则从所述录音源中获取录音语义结果，第二逻辑定义规则至少包括性别关系、语言方言关系、背景音乐关系，并在所述录音语义结果中添加相对应的第三时间戳；将所述录音语义结果保存至检索引擎库；基于检索引擎中被输入的检索关键信息获得所述检索引擎库内相应的录音语义结果；根据录音语义结果内的第三时间戳得到相对应的视频源片段。 9.一种会议视频检索装置，其特征在于，包括：服务器，用于获取视频源，并获取所述视频源中的实体；根据预设的第一逻辑定义规则从所述视频源中获得图像语义结果，第一逻辑定义规则权　利　要　求　书 2/3 页 3 CN 115168650 A 3

专利 一种会议视频检索方法、装置及存储介质

专利一种会议视频检索方法、装置及存储介质