说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211094827.4 (22)申请日 2022.09.07 (71)申请人 腾讯音乐娱乐科技 (深圳) 有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 张悦  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 唐宇鑫 (51)Int.Cl. H04N 21/439(2011.01) H04N 21/44(2011.01) H04N 21/4402(2011.01) H04N 21/488(2011.01) G06V 10/74(2022.01)G06V 20/40(2022.01) G06V 30/148(2022.01) G10L 15/22(2006.01) (54)发明名称 一种视频处 理方法、 计算机设备及存 储介质 (57)摘要 本申请公开了一种视频处理方法、 计算机设 备及存储介质, 该方法包括: 响应于对第一视频 数据的视角转换事件, 获取第一视频数据的音 频 数据, 对音频数据进行处理, 确定音频数据的目 标文本信息; 对第一视频数据进行文本识别, 得 到文本识别信息; 若目标文本信息与文本识别信 息的相似度小于设定阈值, 则基于目标文本信 息、 第二视频数据确定目标视频数据, 第二视频 数据是对第一视频数据进行视觉转换后得到的; 输出目标视频数据。 通过该方法, 可以为没有字 幕的视频添加字幕, 丰富视频内容。 权利要求书2页 说明书14页 附图10页 CN 115474088 A 2022.12.13 CN 115474088 A 1.一种视频处 理方法, 其特 征在于, 所述方法包括: 响应于对第一视频 数据的视角转换事 件, 获取所述第一视频 数据的音频 数据; 对所述音频 数据进行处 理, 得到所述音频 数据的目标文本信息; 对所述第一视频 数据进行文本识别, 得到文本识别 信息; 若所述目标文本信 息与所述文本识别信 息的相似度小于设定 阈值, 则基于所述目标文 本信息、 第二视频数据确定目标视频数据, 所述第二视频数据是对所述第一视频数据进行 视觉转换后得到的; 输出所述目标视频 数据。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 确定所述文本识别 信息中的文本信息; 将所述目标文本信 息与所述文本识别信 息中的文本信 息进行相似度计算, 得到所述目 标文本信息与所述文本识别 信息的相似度; 将所述目标文本信息与所述文本识别 信息的相似度与设定阈值进行比较。 3.根据权利要求1 ‑2任一项所述的方法, 其特 征在于, 所述方法还 包括: 若所述目标文本信 息与所述文本识别信 息的相似度 大于或者等于所述设定 阈值, 则将 所述第一视频数据进 行视觉转换, 得到第二视频数据, 其中, 所述第一视频数据是第一视角 显示的, 所述第二视频 数据是第二视角显示的; 将所述第二视频 数据作为目标视频 数据, 并输出 所述目标视频 数据。 4.根据权利要求1所述的方法, 其特征在于, 所述对所述音频数据进行处理, 得到所述 音频数据的目标文本信息, 包括: 将所述音频 数据转换为语音频谱信息; 基于所述语音频谱信息中的峰值 点, 确定所述音频 数据对应的待识别指纹信息; 将所述待识别指纹信 息与指纹数据库进行匹配, 确定所述待识别指纹信 息对应的目标 指纹信息以及所述目标指纹信息对应的目标歌曲属性信息; 基于所述目标歌曲属性信息确定所述音频 数据的目标文本信息 。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述目标歌曲属性信 息确定所述 音频数据的目标文本信息, 包括: 获取所述音频数据的时间长度, 以及所述音频数据在所述目标歌曲中的第一时间, 所 述第一时间为所述音频 数据的开始时间; 将所述时间长度与所述第一时间进行加 和处理, 得到第二时间; 基于所述目标歌曲属性信 息确定所述目标歌曲的歌词信 息, 并解析所述歌词信 息中所 述第一时间到所述第二时间的字符, 根据解析到的字符确定所述音频数据 的目标文本信 息。 6.根据权利要求5所述的方法, 其特征在于, 所述目标文本信 息包括所述目标歌曲的一 句或多句 歌词, 所述 目标文本信息还包括每句歌词的开始时间和持续时间, 和/或, 所述每 句歌词中的每个字的开始 时间和持续时间; 所述基于所述 目标文本信息、 第二视频数据确 定目标视频 数据, 包括: 对所述第一视频数据的每帧图像进行视觉转换, 得到转换后的每帧图像, 并将所述换 后的每帧图像确定为第二视频 数据;权 利 要 求 书 1/2 页 2 CN 115474088 A 2基于所述目标文本信息确定所述第二视频 数据的每帧图像的文本图像; 基于所述每帧图像的文本图像和所述第二视频 数据的每帧图像确定目标视频 数据。 7.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标文本信息、 第二视频数 据确定目标视频 数据, 包括: 对所述音频 数据进行处 理, 得到所述音频 数据所对应的目标歌曲属性信息; 对所述目标歌曲属性信息进行解析, 确定所述目标歌曲的歌曲名称以及歌曲演唱者; 基于所述歌曲名称以及所述歌曲演唱者 生成歌曲信息图像; 基于所述歌曲信息图像、 所述目标文本信息以及第二视频 数据确定目标视频 数据。 8.根据权利要求1所述的方法, 其特征在于, 所述文本识别由文本检测识别模型执行 的, 所述文本检测识别模型包括文本检测网络和文本识别网络, 所述对所述第一视频数据 进行文本识别, 得到文本识别 信息, 包括: 调用所述文本检测网络对所述第一视频 数据进行检测处 理, 得到文本检测结果; 若所述文本检测结果指示所述第 一视频数据存在文本信 息, 则对所述文本检测结果进 行解析, 得到文本区域图像, 并调用所述文本识别网络对所述文本区域图像进 行文本识别, 得到文本识别 信息; 若所述文本检测结果指示所述第 一视频数据不存在文本信 息, 则将所述文本检测结果 作为文本识别 信息。 9.一种计算机设备, 其特 征在于, 所述计算机设备包括: 处理器, 适于实现一条或多条计算机程序; 以及, 计算机存储介质, 所述计算机存储介质存储有一条或多条计算机程序, 所述一条或多 条计算机程序适于由所述处 理器加载并执 行如权利要求1 ‑8任一项所述的视频处 理方法。 10.一种计算机可读存储介质, 其特征在于, 其特征在于, 所述计算机存储介质存储有 一条或多 条计算机程序, 所述一条或多条计算机程序适于由处理器加载并执行如权利要求 1‑8任一项所述的视频处 理方法。权 利 要 求 书 2/2 页 3 CN 115474088 A 3

PDF文档 专利 一种视频处理方法、计算机设备及存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频处理方法、计算机设备及存储介质 第 1 页 专利 一种视频处理方法、计算机设备及存储介质 第 2 页 专利 一种视频处理方法、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:31:21上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。