专利 混合音频信号的转换方法、装置、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211388921.0 (22)申请日 2022.11.08 (71)申请人南方电网数字电网研究院有限公司地址 510700 广东省广州市黄埔区中新广州知识城亿创街1号 406房之86 (72)发明人黄文琦　林全郴　梁凌宇　郭尧　陈彬　林克全　林志达　陈英达　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师吴辉燃 (51)Int.Cl. G10L 15/08(2006.01) G10L 15/06(2013.01) G10L 15/26(2006.01) G06F 16/34(2019.01)G06F 16/38(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称混合音频信号的转换方法、装置、计算机设备和存储介质 (57)摘要本申请涉及一种混合音频信号的转换方法、装置、计算机设备和存储介质。所述方法包括：获取多人会话场景下的混合音频信号，将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本，其中，所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。采用本方法能够提高混合音频信号的转换效率。权利要求书2页说明书15页附图7页 CN 115440198 A 2022.12.06 CN 115440198 A 1.一种混合音频信号的转换方法，其特征在于，所述方法包括：获取多人会话场景下的混合音频信号；将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本；其中，所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。 2.根据权利要求1所述的方法，其特征在于，所述转换模型包括编码器子网络、注意力机制子网络和解码器子网络，所述将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本，包括：将所述混合音频信号输入所述编码器子网络，获取所述混合音频信号中各单人音频信号的特征信息；将各所述特征信息输入所述注意力机制子网络，获取各所述单人音频信号对应的识别权重；将各所述特征信息和各所述识别权重输入所述解码器子网络，得到转换文本。 3.根据权利要求1或2所述的方法，其特征在于，所述获取多人会话场景下的混合音频信号，包括：获取所述多人会话场景下的初始混合音频信号；对所述初始混合音频信号中的声纹信息进行识别，剔除掉目标声纹信息，得到所述混合音频信号；所述目标声纹信息包括空白声纹信息和噪音声纹信息。 4.根据权利要求1或2所述的方法，其特征在于，所述转换模型的训练过程包括：将多人会话场景下的样本混合音频信号输入预设的初始转换模型中，得到所述样本混合音频信号对应的样本转换文本；根据所述样本转换文本和金标准转换文本，得到所述初始转换模型的损失函数的值；根据所述损失函数的值对所述初始转换模型进行训练，得到所述转换模型。 5.根据权利要求 4所述的方法，其特征在于，所述金标准转换文本的获取过程包括：对所述样本混合音频信号的声纹进行识别，获取所述样本混合音频信号中多个单人样本音频信号；对于各所述单人样本音频信号，将所述单人样本音频信号输入预设的神经网络模型中，获取所述单人样本音频信号对应的单位样本转换文本；所述神经网络模型用于将单人音频信号转换为对应的单位转换文本；按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理，得到所述金标准转换文本。 6.根据权利要求5所述的方法，其特征在于，所述按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理，得到所述金标准转换文本，包括：按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行排序，得到排序后的单位样本转换文本；在所述排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号，得到处理后的单位样本转换文本；根据所述处理后的单位样本转换文本的初始符号和结束符号，对所述处理后的单位样本转换文本进行首尾拼接，得到所述金标准转换文本。权　利　要　求　书 1/2 页 2 CN 115440198 A 27.根据权利要求6所述的方法，其特征在于，所述按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行排序，得到排序后的单位样本转换文本，包括：按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行顺序排序，得到排序后的单位样本转换文本；或者，按照各所述单人样本音频信号的生成时间，对各所述单人样本音频信号对应的单位样本转换文本进行倒序排序，得到排序后的单位样本转换文本。 8.一种混合音频信号的转换装置，其特征在于，所述装置包括：第一获取模块，用于获取多人会话场景下的混合音频信号；第二获取模块，用于将所述混合音频信号输入预设的转换模型中，获取所述混合音频信号对应的转换文本；其中，所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。 9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 115440198 A 3

专利 混合音频信号的转换方法、装置、计算机设备和存储介质

专利混合音频信号的转换方法、装置、计算机设备和存储介质