专利 声纹识别模型的训练方法、声纹识别方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211349630.0 (22)申请日 2022.10.31 (71)申请人北京科技大学地址 100083 北京市海淀区学院路3 0号 (72)发明人刘艳　张传飞　张天昊　魏丽芳　陈松路　殷绪成　 (74)专利代理机构北京华夏泰和知识产权代理有限公司 1 1662 专利代理师邓菊香 (51)Int.Cl. G10L 17/04(2013.01) G10L 17/08(2013.01) G10L 17/18(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称声纹识别模型的训练方法、声纹识别方法、装置及设备 (57)摘要本发明实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备，涉及语音识别领域，通过迭代执行对所述当前语音数据子集中的语音数据进行预处理，获得语音片段；确定第一对比正对和对比负对；将每个语音片段输入到上一迭代获得的深度残差网络模型中，获得对应的说话人嵌入；针对每个说话人嵌入，从预设说话人嵌入队列中确定对应的最近邻正实例，并确定第二对比正对；根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练，获得当前深度残差网络模型；即本发明的实施例通过额外引入的说话人嵌入队列，选取最近邻正实例来构成额外的对比正对，使得训练出的声纹识别模型准确性更高。权利要求书3页说明书12页附图5页 CN 115424621 A 2022.12.02 CN 115424621 A 1.一种声纹识别模型的训练方法，其特征在于，包括：获取语音数据集，并将所述语音数据集中的语音数据划分为多个语音数据子集；迭代执行以下步骤，直至满足预设条件，并确定当前深度残差网络模型为训练好的声纹识别模型：从所述多个语音数据子集中确定当前语音数据子集，并对所述当前语音数据子集中的语音数据进行预处理，获得语音片段；确定来自于同一语音数据的语音片段构成第一对比正对，确定来自于不同语音数据的语音片段构成对比负对；将每个语音片段输入到上一迭代获得的深度残差网络模型中，获得对应的说话人嵌入；针对每个说话人嵌入，从预设说话人嵌入队列中确定对应的最近邻正实例，其中，所述预设说话人嵌入队列包括历史说话人嵌入，所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入；确定所述说话人嵌入对应的语音片段、最近邻正实例对应的历史语音片段构成第二对比正对；根据所述第一对比正对、第二对比正对和对比负对，对所述上一迭代获得的深度残差网络模型进行训练，获得当前深度残差网络模型。 2.根据权利要求1所述的训练方法，其特征在于，所述对所述当前语音数据子集中的语音数据进行预处理，获得语音片段，包括：对所述当前语音数据子集中的每个语音数据进行分割处理，获得分割语音片段；对所述分割语音片段进行数据增强处理，获得所述语音片段。 3.根据权利要求2所述的训练方法，其特征在于，所述预设条件是预设损失函数收敛；其中，所述预设损失函数为角质原型损失函数和余弦距离损失函数的加权和，所述角质原型损失函数根据第一对比正对之间的距离和对比负对之间的距离确定，所述余弦距离损失函数根据第二对比正对之间的距离确定。 4.根据权利要求3所述的训练方法，其特征在于，所述角质原型损失函数 Lap如下：所述余弦距离损失函数 Lcos如下：其中，N表示当前语音数据子集中的语音数据的数量， zi,1表示来自于第 i个语音数据的第1个语音片段对应的说话人嵌入， zi,2表示来自于第i个语音数据的第2个语音片段对应的说话人嵌入； zj,2表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入； τ是温度系数， ei,1表示zi,1对应的最近邻正实例， ei,2表示zi,2对应的最近邻正实例。 5.根据权利要求1 ‑4任一项所述的训练方法，其特征在于，所述方法还包括：将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾，并从所述预设权　利　要　求　书 1/3 页 2 CN 115424621 A 2说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史说话人嵌入。 6.根据权利要求1 ‑4任一项所述的训练方法，其特征在于，所述针对每个说话人嵌入，从预设说话人嵌入队列中确定对应的最近邻正实例，包括：确定每个说话人嵌入与所述预设说话人嵌入队列中各历史说话人嵌入的余弦相似度；确定余弦相似度最大的历史说话人嵌入为所述最近邻正实例。 7.一种声纹识别方法，其特征在于，所述方法基于权利要求1 ‑6任一项所述的声纹识别模型的训练方法所获得的声纹识别模型；所述方法包括：获取待识别语音数据；将所述待识别语音数据输入到所述声纹识别模型中，输出对应的说话人。 8.一种声纹识别模型的训练装置，其特征在于，包括数据模块和训练模块；其中，所述数据模块用于获取语音数据集，并将所述语音数据集中的语音数据划分为多个语音数据子集；所述训练模块用于迭代执行以下步骤，直至满足预设条件，并确定当前深度残差网络模型为训练好的声纹识别模型：从所述多个语音数据子集中确定当前语音数据子集，并对所述当前语音数据子集中的语音数据进行预处理，获得语音片段；确定来自于同一语音数据的语音片段构成第一对比正对，确定来自于不同语音数据的语音片段构成对比负对；将每个语音片段输入到上一迭代获得的深度残差网络模型中，获得对应的说话人嵌入；针对每个说话人嵌入，从预设说话人嵌入队列中确定对应的最近邻正实例，其中，所述预设说话人嵌入队列包括历史说话人嵌入，所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入；确定所述说话人嵌入对应的语音片段、所述最近邻正实例对应的历史语音片段构成第二对比正对；根据所述第一对比正对、第二对比正对和对比负对，对所述上一迭代获得的深度残差网络模型进行训练，获得当前深度残差网络模型。 9.一种声纹识别装置，其特征在于，所述装置基于权利要求1 ‑6任一项所述的声纹识别模型的训练方法所获得的声纹识别模型；所述装置包括获取模块和处理模块；所述获取模块，用于获取待识别语音数据；所述处理模块，用于将所述待识别语音数据输入到所述声纹识别模型中，输出对应的说话人。 10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1 ‑6任一项所述的声纹识别模型的训练方法或如权利要求7 所述的声纹识别方法的步骤。 11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1‑6任一项所述的声纹识别模型的训练方法或如权利要求权　利　要　求　书 2/3 页 3 CN 115424621 A 3

专利 声纹识别模型的训练方法、声纹识别方法、装置及设备

专利声纹识别模型的训练方法、声纹识别方法、装置及设备