专利 一种视频处理方法、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211094827.4 (22)申请日 2022.09.07 (71)申请人腾讯音乐娱乐科技（深圳）有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人张悦　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师唐宇鑫 (51)Int.Cl. H04N 21/439(2011.01) H04N 21/44(2011.01) H04N 21/4402(2011.01) H04N 21/488(2011.01) G06V 10/74(2022.01)G06V 20/40(2022.01) G06V 30/148(2022.01) G10L 15/22(2006.01) (54)发明名称一种视频处理方法、计算机设备及存储介质 (57)摘要本申请公开了一种视频处理方法、计算机设备及存储介质，该方法包括：响应于对第一视频数据的视角转换事件，获取第一视频数据的音频数据，对音频数据进行处理，确定音频数据的目标文本信息；对第一视频数据进行文本识别，得到文本识别信息；若目标文本信息与文本识别信息的相似度小于设定阈值，则基于目标文本信息、第二视频数据确定目标视频数据，第二视频数据是对第一视频数据进行视觉转换后得到的；输出目标视频数据。通过该方法，可以为没有字幕的视频添加字幕，丰富视频内容。权利要求书2页说明书14页附图10页 CN 115474088 A 2022.12.13 CN 115474088 A 1.一种视频处理方法，其特征在于，所述方法包括：响应于对第一视频数据的视角转换事件，获取所述第一视频数据的音频数据；对所述音频数据进行处理，得到所述音频数据的目标文本信息；对所述第一视频数据进行文本识别，得到文本识别信息；若所述目标文本信息与所述文本识别信息的相似度小于设定阈值，则基于所述目标文本信息、第二视频数据确定目标视频数据，所述第二视频数据是对所述第一视频数据进行视觉转换后得到的；输出所述目标视频数据。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定所述文本识别信息中的文本信息；将所述目标文本信息与所述文本识别信息中的文本信息进行相似度计算，得到所述目标文本信息与所述文本识别信息的相似度；将所述目标文本信息与所述文本识别信息的相似度与设定阈值进行比较。 3.根据权利要求1 ‑2任一项所述的方法，其特征在于，所述方法还包括：若所述目标文本信息与所述文本识别信息的相似度大于或者等于所述设定阈值，则将所述第一视频数据进行视觉转换，得到第二视频数据，其中，所述第一视频数据是第一视角显示的，所述第二视频数据是第二视角显示的；将所述第二视频数据作为目标视频数据，并输出所述目标视频数据。 4.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行处理，得到所述音频数据的目标文本信息，包括：将所述音频数据转换为语音频谱信息；基于所述语音频谱信息中的峰值点，确定所述音频数据对应的待识别指纹信息；将所述待识别指纹信息与指纹数据库进行匹配，确定所述待识别指纹信息对应的目标指纹信息以及所述目标指纹信息对应的目标歌曲属性信息；基于所述目标歌曲属性信息确定所述音频数据的目标文本信息。 5.根据权利要求4所述的方法，其特征在于，所述基于所述目标歌曲属性信息确定所述音频数据的目标文本信息，包括：获取所述音频数据的时间长度，以及所述音频数据在所述目标歌曲中的第一时间，所述第一时间为所述音频数据的开始时间；将所述时间长度与所述第一时间进行加和处理，得到第二时间；基于所述目标歌曲属性信息确定所述目标歌曲的歌词信息，并解析所述歌词信息中所述第一时间到所述第二时间的字符，根据解析到的字符确定所述音频数据的目标文本信息。 6.根据权利要求5所述的方法，其特征在于，所述目标文本信息包括所述目标歌曲的一句或多句歌词，所述目标文本信息还包括每句歌词的开始时间和持续时间，和/或，所述每句歌词中的每个字的开始时间和持续时间；所述基于所述目标文本信息、第二视频数据确定目标视频数据，包括：对所述第一视频数据的每帧图像进行视觉转换，得到转换后的每帧图像，并将所述换后的每帧图像确定为第二视频数据；权　利　要　求　书 1/2 页 2 CN 115474088 A 2基于所述目标文本信息确定所述第二视频数据的每帧图像的文本图像；基于所述每帧图像的文本图像和所述第二视频数据的每帧图像确定目标视频数据。 7.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本信息、第二视频数据确定目标视频数据，包括：对所述音频数据进行处理，得到所述音频数据所对应的目标歌曲属性信息；对所述目标歌曲属性信息进行解析，确定所述目标歌曲的歌曲名称以及歌曲演唱者；基于所述歌曲名称以及所述歌曲演唱者生成歌曲信息图像；基于所述歌曲信息图像、所述目标文本信息以及第二视频数据确定目标视频数据。 8.根据权利要求1所述的方法，其特征在于，所述文本识别由文本检测识别模型执行的，所述文本检测识别模型包括文本检测网络和文本识别网络，所述对所述第一视频数据进行文本识别，得到文本识别信息，包括：调用所述文本检测网络对所述第一视频数据进行检测处理，得到文本检测结果；若所述文本检测结果指示所述第一视频数据存在文本信息，则对所述文本检测结果进行解析，得到文本区域图像，并调用所述文本识别网络对所述文本区域图像进行文本识别，得到文本识别信息；若所述文本检测结果指示所述第一视频数据不存在文本信息，则将所述文本检测结果作为文本识别信息。 9.一种计算机设备，其特征在于，所述计算机设备包括：处理器，适于实现一条或多条计算机程序；以及，计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1 ‑8任一项所述的视频处理方法。 10.一种计算机可读存储介质，其特征在于，其特征在于，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求 1‑8任一项所述的视频处理方法。权　利　要　求　书 2/2 页 3 CN 115474088 A 3

专利 一种视频处理方法、计算机设备及存储介质

专利一种视频处理方法、计算机设备及存储介质