(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211349630.0
(22)申请日 2022.10.31
(71)申请人 北京科技大 学
地址 100083 北京市海淀区学院路3 0号
(72)发明人 刘艳 张传飞 张天昊 魏丽芳
陈松路 殷绪成
(74)专利代理 机构 北京华夏泰和知识产权代理
有限公司 1 1662
专利代理师 邓菊香
(51)Int.Cl.
G10L 17/04(2013.01)
G10L 17/08(2013.01)
G10L 17/18(2013.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
声纹识别模型的训练方法、 声纹识别方法、
装置及设备
(57)摘要
本发明实施例涉及一种声纹识别模型的训
练方法、 声纹识别方法、 装置及设备, 涉及语音识
别领域, 通过迭代执行对所述当前语音数据子集
中的语音数据进行预处理, 获得语音片段; 确定
第一对比正对和对比负对; 将每个语音片段输入
到上一迭代获得的深度残差网络模 型中, 获得对
应的说话人嵌入; 针对每个说话人嵌入, 从预设
说话人嵌入队列中确定对应的最近邻正实例, 并
确定第二对比正对; 根据所述第一对比正对、 第
二对比正对和对比负对对所述上一迭代获得的
深度残差网络模 型进行训练, 获得当前深度残差
网络模型; 即本发明的实施例通过额外引入的说
话人嵌入队列, 选取最近邻正实例来构成额外的
对比正对, 使得训练出的声纹识别模 型准确性更
高。
权利要求书3页 说明书12页 附图5页
CN 115424621 A
2022.12.02
CN 115424621 A
1.一种声纹识别模型的训练方法, 其特 征在于, 包括:
获取语音数据集, 并将所述语音数据集中的语音数据划分为多个 语音数据子集;
迭代执行以下步骤, 直至满足预设条件, 并确定当前深度残差网络模型为训练好的声
纹识别模型:
从所述多个语音数据子集中确定当前语音数据子集, 并对所述当前语音数据子集中的
语音数据进行 预处理, 获得语音片段;
确定来自于同一语音数据的语音片段构 成第一对比正对, 确定来自于不同语音数据的
语音片段构成对比负对;
将每个语音片段输入到上一迭代获得的深度残差网络模型中, 获得对应的说话人嵌
入;
针对每个说话人嵌入, 从预设说话人嵌入队列中确定对应的最近邻正实例, 其中, 所述
预设说话人嵌入队列包括历史说话人嵌入, 所述最近邻正实例是与所述说话人嵌入相似度
最大的历史说话人嵌入;
确定所述说话人嵌入对应的语音片段、 最近邻正实例对应的历史语音片段构 成第二对
比正对;
根据所述第一对比正对、 第二对比正对和对比负对, 对所述上一迭代获得的深度残差
网络模型进行训练, 获得当前深度残差网络模型。
2.根据权利要求1所述的训练方法, 其特征在于, 所述对所述当前语音数据子集中的语
音数据进行 预处理, 获得语音片段, 包括:
对所述当前语音数据子集中的每 个语音数据进行分割处 理, 获得分割语音片段;
对所述分割语音片段进行 数据增强处 理, 获得所述语音片段。
3.根据权利要求2所述的训练方法, 其特 征在于, 所述预设条件是 预设损失函数收敛;
其中, 所述预设损 失函数为角质原型损 失函数和余弦距离损 失函数的加权和, 所述角
质原型损失函数根据第一对比正对之 间的距离和对比负对 之间的距离确定, 所述余弦距离
损失函数根据第二对比正对之间的距离确定 。
4.根据权利要求3所述的训练方法, 其特 征在于, 所述角质原型损失函数 Lap如下:
所述余弦距离损失函数 Lcos如下:
其中,N表示当前语音数据子集中的语音数据的数量, zi,1表示来自于第 i个语音数据的
第1个语音片段对应的说话人嵌入, zi,2表示来自于第i个语音 数据的第2个语音片段对应的
说话人嵌入; zj,2表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入; τ是温度
系数, ei,1表示zi,1对应的最近邻正实例, ei,2表示zi,2对应的最近邻正实例。
5.根据权利要求1 ‑4任一项所述的训练方法, 其特 征在于, 所述方法还 包括:
将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾, 并从所述预设权 利 要 求 书 1/3 页
2
CN 115424621 A
2说话人嵌入队列的队首依次删除与所述说话人嵌入 对应数量的历史说话人嵌入。
6.根据权利要求1 ‑4任一项所述的训练方法, 其特征在于, 所述针对每个说话人嵌入,
从预设说话人嵌入队列中确定对应的最近邻正实例, 包括:
确定每个说话人嵌入与所述预设 说话人嵌入队列中各历史说话人嵌入的余弦相似度;
确定余弦相似度最大的历史说话人嵌入为所述 最近邻正实例。
7.一种声纹识别方法, 其特征在于, 所述方法基于权利要求1 ‑6任一项所述的声纹识别
模型的训练方法所获得的声纹识别模型; 所述方法包括:
获取待识别语音数据;
将所述待识别语音数据输入到所述声纹识别模型中, 输出对应的说话人。
8.一种声纹识别模型的训练装置, 其特 征在于, 包括数据模块和训练模块;
其中, 所述数据模块用于获取语音数据集, 并将所述语音数据集中的语音数据划分为
多个语音数据子集;
所述训练模块用于迭代执行以下步骤, 直至满足预设条件, 并确定当前深度残差网络
模型为训练好的声纹识别模型:
从所述多个语音数据子集中确定当前语音数据子集, 并对所述当前语音数据子集中的
语音数据进行 预处理, 获得语音片段;
确定来自于同一语音数据的语音片段构 成第一对比正对, 确定来自于不同语音数据的
语音片段构成对比负对;
将每个语音片段输入到上一迭代获得的深度残差网络模型中, 获得对应的说话人嵌
入;
针对每个说话人嵌入, 从预设说话人嵌入队列中确定对应的最近邻正实例, 其中, 所述
预设说话人嵌入队列包括历史说话人嵌入, 所述最近邻正实例是与所述说话人嵌入相似度
最大的历史说话人嵌入;
确定所述说话人嵌入对应的语音片段、 所述最近邻正实例对应的历史语音片段构 成第
二对比正对;
根据所述第一对比正对、 第二对比正对和对比负对, 对所述上一迭代获得的深度残差
网络模型进行训练, 获得当前深度残差网络模型。
9.一种声纹识别装置, 其特征在于, 所述装置基于权利要求1 ‑6任一项所述的声纹识别
模型的训练方法所获得的声纹识别模型; 所述装置包括获取模块和处 理模块;
所述获取模块, 用于获取待识别语音数据;
所述处理模块, 用于将所述待识别语音数据输入到所述声纹识别模型中, 输出对应的
说话人。
10.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总 线, 其中, 处理
器, 通信接口, 存 储器通过通信总线完成相互间的通信;
存储器, 用于存放计算机程序;
处理器, 用于执行存储器上所存放的程序时, 实现权利要求1 ‑6任一项所述的声纹识别
模型的训练方法或如权利要求7 所述的声纹识别方法的步骤。
11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现如权利要求 1‑6任一项所述的声纹识别模型的训练方法或如权利要求权 利 要 求 书 2/3 页
3
CN 115424621 A
3
专利 声纹识别模型的训练方法、声纹识别方法、装置及设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:02上传分享