专利 基于预训练模型的面试场景下ASR文本的数据增强方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211065997.X (22)申请日 2022.09.01 (71)申请人北京智谱华章科技有限公司地址 100084 北京市海淀区中关村东路1号院6号楼6层6 03A (72)发明人陈亦舟　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师孟洋 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/12(2020.01) G06F 40/216(2020.01)G06K 9/62(2022.01) G06Q 10/10(2012.01) (54)发明名称基于预训练模型的面试场景下ASR文本的数据增强方法 (57)摘要本申请提出一种基于预训练模型的面试场景下ASR文本的数据增强方法，该方法包括：对预先获取的面试场景下的ASR文本进行预处理，并获取每条ASR文本的句向量；基于机器学习库将面试涉及的每个岗位下的ASR文本进行多级聚类，并通过预设的第一预训练模型归纳每个聚类对应的聚类文本；根据全部的聚类文本选取预设数量的初始数据，获取每条初始数据对应的正规化文本，并基于正规化文本生成每个聚类类别对应的一条标准化问题；获取每个岗位下的多个目标关键词，通过判断每条标准化问题中是否存在任一目标关键词对每条标准化问题进行分类。该方法可以从口语化文本中提取出多个高质量的问题文本，提高对面试ASR文本进行数据增强生成的数据的质量。权利要求书2页说明书10页附图3页 CN 115455185 A 2022.12.09 CN 115455185 A 1.一种基于预训练模型的面试场景下ASR文本的数据增强方法，其特征在于，包括以下步骤：对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理，并获取每条所述 ASR文本的句向量；基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类，并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本；根据全部的所述聚类文本选取预设数量的初始数据，获取每条所述初始数据对应的正规化文本，并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题；获取每个岗位下的多个目标关键词，通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。 2.根据权利要求1所述的数据增强方法，其特征在于，所述对预先获取的大量面试场景下的自动语音识别技术ASR文本进行预处理，包括：剔除每条所述ASR文本中的停用词和语气词；合并发言人对应的内容相同的ASR文本；所述获取每条所述ASR文本的句向量，包括：将所述第一预训练模型在中文数据集上进行微调，通过微调后的第一预训练模型生成每条所述ASR文本的句向量。 3.根据权利要求1所述的数据增强方法，其特征在于，所述机器学习库包括： Scikit ‑ Learn库，所述基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类，包括：通过所述Scikit ‑Learn库中的Mini Batch K‑means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类，获得每个岗位对应的多个子类；通过所述Scikit ‑Learn库中的OPTICS库对每个所述子类进行基于密度的聚类，确定所述聚类类别，并获得每个所述聚类类别对应的所述聚类文本和噪音文本。 4.根据权利要求3所述的数据增强方法，其特征在于，所述通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本，包括：针对每个岗位，通过所述第一预训练模型生成当前岗位下全部的所述聚类文本和所述噪音文本的句向量；基于句向量，通过相似向量检索库判断每条所述噪音文本是否存在一条相似度超过相似度阈值目标聚类文本，若是，则将噪音文本归类至所述目标聚类文本对应的聚类类别中。 5.根据权利要求1所述的数据增强方法，其特征在于，所述初始数据包括一组相似的聚类文本，所述获取每条所述初始数据对应的正规化文本，包括：通过人工标注确定每组相似的聚类文本的一条正规化文本；所述基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题，包括：通过每个所述正规化文本微调预设的第二预训练模型，通过微调后的第二预训练模型输出每个所述聚类类别对应的一条标准化问题。 6.根据权利要求1所述的数据增强方法，其特征在于，所述获取每个岗位下的多个目标关键词，包括：在预处理后的ASR文本库中，基于TF ‑IDF算法计算每个岗位在数量上限内的多个初始权　利　要　求　书 1/2 页 2 CN 115455185 A 2关键词；通过人工标注对每个岗位的所述初始关键词进行优化，获得每个岗位下的多个目标关键词。 7.一种基于预训练模型的面试场景下ASR文本的数据增强系统，其特征在于，包括：获取模块，用于对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理，并获取每条所述ASR文本的句向量；聚类模块，用于基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类，并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本；生成模块，用于根据全部的所述聚类文本选取预设数量的初始数据，获取每条所述初始数据对应的正规化文本，并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题；分类模块，用于获取每个岗位下的多个目标关键词，通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。 8.根据权利要求7 所述的数据增强系统，其特征在于，所述获取模块，具体用于：剔除每条所述ASR文本中的停用词和语气词；合并发言人对应的内容相同的ASR文本；将所述第一预训练模型在中文数据集上进行微调，通过微调后的第一预训练模型生成每条所述ASR文本的句向量。 9.根据权利要求7所述的数据增强系统，其特征在于，所述机器学习库包括： Scikit ‑ Learn库，所述聚类模块，具体用于：通过所述Scikit ‑Learn库中的Mini Batch K‑means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类，获得每个岗位对应的多个子类；通过所述Scikit ‑Learn库中的OPTICS库对每个所述子类进行基于密度的聚类，确定所述聚类类别，并获得每个所述聚类类别对应的所述聚类文本和噪音文本。 10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1‑6中任一所述的基于预训练模型的面试场景下 ASR文本的数据增强方法。权　利　要　求　书 2/2 页 3 CN 115455185 A 3

专利 基于预训练模型的面试场景下ASR文本的数据增强方法

专利基于预训练模型的面试场景下ASR文本的数据增强方法