专利 语料生成方法、装置、电子设备和计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210572357.1 (22)申请日 2022.05.24 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人王书培　刘攀　 (74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙) 44300 专利代理师李玉婷 (51)Int.Cl. G06F 16/735(2019.01) G06F 16/783(2019.01) G06V 10/74(2022.01) G10L 15/26(2006.01) (54)发明名称语料生成方法、装置、电子设备和计算机可读存储介质 (57)摘要本发明实施例公开了一种语料生成方法、装置、电子设备和计算机可读存储介质；本发明实施例在获取至少一个候选视频，并对候选视频的视频帧进行文本识别，得到候选视频的字幕内容后，在候选视频中提取出音频内容，并将音频内容转换为文本内容，然后，计算字幕内容和文本内容之间的相似度，得到候选视频的文本相似度，然后，根据文本相似度，在候选视频中筛选出目标语言的至少一个目标视频，基于目标视频的音频内容和字幕内容，生成目标语言对应的语料；该方案可以大大提升语音识别中的语料生成的准确性。权利要求书3页说明书15页附图7页 CN 114996506 A 2022.09.02 CN 114996506 A 1.一种语料生成方法，其特征在于，包括：获取至少一个候选视频，并对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容；在所述候选视频中提取出音频内容，并将所述音频内容转换为文本内容；计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度；根据所述文本相似度，在所述候选视频中筛选出目标语言的至少一个目标视频；基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料。 2.根据权利要求1所述的语料生成方法，其特征在于，所述计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度，包括：在所述字幕内容中识别出字幕字符串，并在所述文本内容中识别出文本字符串；计算所述字幕字符串与所述文本字符串之间的转换操作次数，得到字幕字符串与文本字符串之间的类编辑距离；基于所述字幕字符串、文本字符串和类编辑距离，确定所述候选视频的文本相似度。 3.根据权利要求2所述的语料生成方法，其特征在于，所述基于所述字幕字符串、文本字符串和类编辑距离，确定所述候选视频的文本相似度，包括：将所述字幕字符串与文本字符串进行融合，得到字符串距离；计算所述类编辑距离与字符串距离之间的距离差值；计算所述距离差值与所述字符串距离之间的比值，得到所述候选视频的文本相似度。 4.根据权利要求1至3任一项所述的语料生成方法，其特征在于，所述对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容，包括：对所述候选视频进行分帧，并在分帧后的视频帧中筛选出关键视频帧；在所述关键视频帧中定位出目标位置区域，得到所述候选视频的字幕区域；在所述视频帧中识别出所述字幕区域对应的文本，得到所述候选视频的字幕内容。 5.根据权利要求4所述的语料生成方法，其特征在于，所述在分帧后的视频帧中筛选出关键视频帧，包括：对分帧后的视频帧进行文本识别，得到所述视频帧的视频帧文本；基于所述视频帧文本，对所述视频帧进行分类，得到每一视频帧文本对应的视频帧集合；根据所述视频帧对应的播放时间，对所述视频帧集合中的视频帧进行排序，并基于排序结果，在所述视频帧集合中筛选出关键视频帧。 6.根据权利要求4所述的语料生成方法，其特征在于，所述在所述关键视频帧中定位出目标位置区域，得到所述候选视频的字幕区域，包括：在所述视频帧文本中筛选出所述关键视频帧的至少一个关键视频帧文本，并在所述关键视频帧中识别出每一所述关键视频帧文本的文本位置信息；基于所述关键视频帧文本，在所述文本位置信息中筛选出目标位置信息；在所述关键视频帧中定位出所述目标位置信息对应的位置区域，得到所述候选视频的字幕区域。 7.根据权利要求1至3所述的语料生成方法，其特征在于，所述获取至少一个候选视频，包括：权　利　要　求　书 1/3 页 2 CN 114996506 A 2根据预设关键词，获取目标语言的基础视频集合；在所述基础视频集合中识别出每一视频的视频类型和所述视频类型的置信度；基于所述视频类型和置信度，在所述基础视频集合中筛选出至少一个候选视频。 8.根据权利要求7所述的语料生成方法，其特征在于，所述在所述基础视频集合中识别出每一视频的视频类型和所述视频类型的置信度，包括：对所述基础视频集合中的每一视频的音频帧进行音频检测，得到所述音频帧的音频类型；对所述视频进行静音检测，并基于检测结果，对所述视频进行音频切割，得到至少一个音频片段；对所述音频片段进行特征提取，并基于提取出的音频特征和音频类型，确定所述视频的视频类型和所述视频类型的置信度。 9.根据权利要求8所述的语料生成方法，其特征在于，所述基于提取出的音频特征和音频类型，确定所述视频的视频类型和所述视频类型的置信度，包括：根据所述音频类型和音频特征，确定所述音频片段的语音类型和所述语音类型的分类信息；获取所述音频片段的音频时长，并基于所述音频时长，确定所述语音类型的分类权重；根据所述分类权重和分类信息，将所述视频的音频片段对应的语音类型进行融合，以得到所述视频的视频类型和所述视频类型的置信度。 10.根据权利要求1至3任一项所述的语料生成方法，其特征在于，所述基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料，包括：在所述字幕内容中筛选出所述目标视频的目标字幕内容；并在所述目标视频中提取出所述目标字幕内容对应的时间轴；将所述目标视频的音频内容、目标字幕内容和时间轴作为初始语料，并将所述初始语料发送至校验服务器进行校验，以得到所述目标语言的语料。 11.一种语料生成装置，其特征在于，包括：获取单元，用于获取至少一个候选视频，并对所述候选视频的视频帧进行文本识别，得到所述候选视频的字幕内容；转换单元，用于在所述候选视频中提取出音频内容，并将所述音频内容转换为文本内容；计算单元，用于计算所述字幕内容和所述文本内容之间的相似度，得到所述候选视频的文本相似度；筛选单元，用于根据所述文本相似度，在所述候选视频中筛选出目标语言的至少一个目标视频；生成单元，用于基于所述目标视频的音频内容和字幕内容，生成所述目标语言对应的语料。 12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至10任一项所述的语料生成方法中的步骤。 13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被权　利　要　求　书 2/3 页 3 CN 114996506 A 3

专利 语料生成方法、装置、电子设备和计算机可读存储介质

专利语料生成方法、装置、电子设备和计算机可读存储介质