说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211365338.8 (22)申请日 2022.11.03 (71)申请人 南昌惠联网络技 术有限公司 地址 330000 江西省南昌市红谷滩区红角 洲学府大道899号江西慧谷-红谷创意 产业园1号楼 A栋六楼A6-04室 (72)发明人 洪葵 胡盛利 钟天生 黄隆辉  龚晖 周涛 熊新宇 薛萌  (74)专利代理 机构 南昌明佳知识产权代理事务 所(普通合伙) 36132 专利代理师 熊赣荣 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 16/35(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种网络业 务文档的分类管理方法 (57)摘要 本发明公开了一种网络业务文档的分类管 理方法。 该分类管理方法通过多域分类与加权朴 素贝叶斯分类并行的方式对网络业务文档进行 特征提取与分类。 首先, 将业务文档进行数据预 处理得到为文本数据集, 对文本数据集进行分割 处理成域文档后, 通过域分类器得到第一特征。 其次, 将文本数据集通过空间向量模 型转变为文 本向量, 获取属性标签, 以属性相似的标签构成 标签对, 若干个标签对组成待分类样本, 并按照 文本数据集的特点与词频进行属性加权。 最后, 通过朴素贝叶斯分类器得到第二特征, 第一特征 与第二特征共同执行分类决策, 并将分类决策结 果推送至相应的终端系统。 权利要求书2页 说明书6页 附图4页 CN 115409135 A 2022.11.29 CN 115409135 A 1.一种网络业 务文档的分类管理方法, 其特 征在于, 包括以下步骤: 步骤1: 获取网络用户业务中的任意业务文档, 通过数据预处理过滤业务文档中的无效 信息, 得到处 理后的文本数据集; 步骤2: 将文本数据集分割为n个多域文本文档, 抽取文本文档 中与属性标签相关的信 息, 构成多个域文档; 步骤3: 通过域分类器对域文档进行处理, 输出基于该域文档的第一数值向量X=(SE1, SE2,…,SEn),X∈Rn; 步骤4: 组合器基于第一数值向量X生成一维数值向量Y=(SE), 基于X →Y对域文档进行 分类, 得到第一特 征; 步骤5: 将文本数据集通过向量空间模型转变为文本向量K, 提取文本向量K中的第一属 性标签Ki,(i=1,2, …,n); 步骤6: 提取第一属性标签Ki任意两个独立的属性构成标签对, 所述标签对构成待分类 样本d; 步骤7: 通过朴素贝叶斯分类器对待分类样本d进行处理, 输出结果处理后输出基于该 文档的第二数值向量M =(SR1,SR2,…,SRn),M∈Rn; 步骤8: 组合器基于第二数值向量M生成一维数值向量N=(SR), 基于M →N对待分类样本d 进行分类, 得到第二特 征; 步骤9: 输入第一特征与第二特征到学习器, 输出任意业务文档各文档的正确类别标 签, 并推送到相应的终端系统。 2.根据权利要求1所述的网络业务文档的分类管理方法, 其特征在于, 所述数据 预处理 方法剔除任意业务文档中的冠词、 连词、 空格字符、 人称代词、 形容词, 得到文本数据集, 并 通过特征提取, 分离噪声标签。 3.根据权利要求2所述的网络业务文档的分类管理方法, 其特征在于, 特征提取根据包 含空间复杂度、 时间复杂度与提取准确 率的约束条件获取文本数据集的特征值, 按照网络 用户业务的文本类别统计特征值, 根据特征值的大小构建特征词集合, 其中, 文本类别q中 词c的特征值v=FF(c)*DF(c)*[1/QF(c)], 其中, FF(c)为词c在文本类别q中最大出现频率, DF(c)为文本类别q中出现词c的文档总数量, QF(c)代表文本数据集中出现词c的类别总数 量。 4.根据权利要求1所述的网络业务文档的分类管理方法, 其特征在于, 通过选定的属性 标签将文本数据集分割为多域文本文档, 所述属性标签是文本数据集的分类结果。 5.根据权利要求1所述的网络业务文档的分类管理方法, 其特征在于, 域分类器只处理 唯一一个的域文档, 域分类的域分类模型抽取域文档中的属 性特征, 域分类模型为各个域 文档计算其置信度J, J∈R, 置信度J能够作为域文档属于噪声 标签的似然程度, 每个域分类 模型对应唯一 一个域文档。 6.根据权利要求1所述的网络业务文档的分类管理方法, 其特征在于, 第 一特征为组合 器对第一数值向量X 经过处理得到的二 值结果, 该第一特 征包含属性标签与噪声标签。 7.根据权利要求1所述的网络业务文档的分类管理方法, 其特征在于, 第 一属性标签包 含有文本数据集中的全部属性特征, 第一属性标签为属性特征中的词在高维空间内映射所 产生的集 合。权 利 要 求 书 1/2 页 2 CN 115409135 A 28.根据权利要求1所述的网络业务文档的分类管理方法, 其特征在于, 待分类样本d为 多个相似的标签对, 通过对平台中文本数据集的各个属性特征进 行权重提取, 包括词形、 词 距、 词长以及词序进行超参数预设, 分别得到α1、 α2、 α3、 α4, 计算各个属性标签的综合相似 度, 构成待分类样本d。 9.根据权利要求1所述的网络业务文档的分类管理方法, 其特征在于, 第 二特征为组合 器对第二数值向量X 经过处理得到的二 值结果, 该第二特 征包含语义标签与噪声标签。权 利 要 求 书 2/2 页 3 CN 115409135 A 3

PDF文档 专利 一种网络业务文档的分类管理方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种网络业务文档的分类管理方法 第 1 页 专利 一种网络业务文档的分类管理方法 第 2 页 专利 一种网络业务文档的分类管理方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。