(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211094827.4
(22)申请日 2022.09.07
(71)申请人 腾讯音乐娱乐科技 (深圳) 有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201室
(72)发明人 张悦
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 唐宇鑫
(51)Int.Cl.
H04N 21/439(2011.01)
H04N 21/44(2011.01)
H04N 21/4402(2011.01)
H04N 21/488(2011.01)
G06V 10/74(2022.01)G06V 20/40(2022.01)
G06V 30/148(2022.01)
G10L 15/22(2006.01)
(54)发明名称
一种视频处 理方法、 计算机设备及存 储介质
(57)摘要
本申请公开了一种视频处理方法、 计算机设
备及存储介质, 该方法包括: 响应于对第一视频
数据的视角转换事件, 获取第一视频数据的音 频
数据, 对音频数据进行处理, 确定音频数据的目
标文本信息; 对第一视频数据进行文本识别, 得
到文本识别信息; 若目标文本信息与文本识别信
息的相似度小于设定阈值, 则基于目标文本信
息、 第二视频数据确定目标视频数据, 第二视频
数据是对第一视频数据进行视觉转换后得到的;
输出目标视频数据。 通过该方法, 可以为没有字
幕的视频添加字幕, 丰富视频内容。
权利要求书2页 说明书14页 附图10页
CN 115474088 A
2022.12.13
CN 115474088 A
1.一种视频处 理方法, 其特 征在于, 所述方法包括:
响应于对第一视频 数据的视角转换事 件, 获取所述第一视频 数据的音频 数据;
对所述音频 数据进行处 理, 得到所述音频 数据的目标文本信息;
对所述第一视频 数据进行文本识别, 得到文本识别 信息;
若所述目标文本信 息与所述文本识别信 息的相似度小于设定 阈值, 则基于所述目标文
本信息、 第二视频数据确定目标视频数据, 所述第二视频数据是对所述第一视频数据进行
视觉转换后得到的;
输出所述目标视频 数据。
2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
确定所述文本识别 信息中的文本信息;
将所述目标文本信 息与所述文本识别信 息中的文本信 息进行相似度计算, 得到所述目
标文本信息与所述文本识别 信息的相似度;
将所述目标文本信息与所述文本识别 信息的相似度与设定阈值进行比较。
3.根据权利要求1 ‑2任一项所述的方法, 其特 征在于, 所述方法还 包括:
若所述目标文本信 息与所述文本识别信 息的相似度 大于或者等于所述设定 阈值, 则将
所述第一视频数据进 行视觉转换, 得到第二视频数据, 其中, 所述第一视频数据是第一视角
显示的, 所述第二视频 数据是第二视角显示的;
将所述第二视频 数据作为目标视频 数据, 并输出 所述目标视频 数据。
4.根据权利要求1所述的方法, 其特征在于, 所述对所述音频数据进行处理, 得到所述
音频数据的目标文本信息, 包括:
将所述音频 数据转换为语音频谱信息;
基于所述语音频谱信息中的峰值 点, 确定所述音频 数据对应的待识别指纹信息;
将所述待识别指纹信 息与指纹数据库进行匹配, 确定所述待识别指纹信 息对应的目标
指纹信息以及所述目标指纹信息对应的目标歌曲属性信息;
基于所述目标歌曲属性信息确定所述音频 数据的目标文本信息 。
5.根据权利要求4所述的方法, 其特征在于, 所述基于所述目标歌曲属性信 息确定所述
音频数据的目标文本信息, 包括:
获取所述音频数据的时间长度, 以及所述音频数据在所述目标歌曲中的第一时间, 所
述第一时间为所述音频 数据的开始时间;
将所述时间长度与所述第一时间进行加 和处理, 得到第二时间;
基于所述目标歌曲属性信 息确定所述目标歌曲的歌词信 息, 并解析所述歌词信 息中所
述第一时间到所述第二时间的字符, 根据解析到的字符确定所述音频数据 的目标文本信
息。
6.根据权利要求5所述的方法, 其特征在于, 所述目标文本信 息包括所述目标歌曲的一
句或多句 歌词, 所述 目标文本信息还包括每句歌词的开始时间和持续时间, 和/或, 所述每
句歌词中的每个字的开始 时间和持续时间; 所述基于所述 目标文本信息、 第二视频数据确
定目标视频 数据, 包括:
对所述第一视频数据的每帧图像进行视觉转换, 得到转换后的每帧图像, 并将所述换
后的每帧图像确定为第二视频 数据;权 利 要 求 书 1/2 页
2
CN 115474088 A
2基于所述目标文本信息确定所述第二视频 数据的每帧图像的文本图像;
基于所述每帧图像的文本图像和所述第二视频 数据的每帧图像确定目标视频 数据。
7.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标文本信息、 第二视频数
据确定目标视频 数据, 包括:
对所述音频 数据进行处 理, 得到所述音频 数据所对应的目标歌曲属性信息;
对所述目标歌曲属性信息进行解析, 确定所述目标歌曲的歌曲名称以及歌曲演唱者;
基于所述歌曲名称以及所述歌曲演唱者 生成歌曲信息图像;
基于所述歌曲信息图像、 所述目标文本信息以及第二视频 数据确定目标视频 数据。
8.根据权利要求1所述的方法, 其特征在于, 所述文本识别由文本检测识别模型执行
的, 所述文本检测识别模型包括文本检测网络和文本识别网络, 所述对所述第一视频数据
进行文本识别, 得到文本识别 信息, 包括:
调用所述文本检测网络对所述第一视频 数据进行检测处 理, 得到文本检测结果;
若所述文本检测结果指示所述第 一视频数据存在文本信 息, 则对所述文本检测结果进
行解析, 得到文本区域图像, 并调用所述文本识别网络对所述文本区域图像进 行文本识别,
得到文本识别 信息;
若所述文本检测结果指示所述第 一视频数据不存在文本信 息, 则将所述文本检测结果
作为文本识别 信息。
9.一种计算机设备, 其特 征在于, 所述计算机设备包括:
处理器, 适于实现一条或多条计算机程序; 以及,
计算机存储介质, 所述计算机存储介质存储有一条或多条计算机程序, 所述一条或多
条计算机程序适于由所述处 理器加载并执 行如权利要求1 ‑8任一项所述的视频处 理方法。
10.一种计算机可读存储介质, 其特征在于, 其特征在于, 所述计算机存储介质存储有
一条或多 条计算机程序, 所述一条或多条计算机程序适于由处理器加载并执行如权利要求
1‑8任一项所述的视频处 理方法。权 利 要 求 书 2/2 页
3
CN 115474088 A
3
专利 一种视频处理方法、计算机设备及存储介质
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:21上传分享