全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210417138.6 (22)申请日 2022.04.20 (71)申请人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 王安宁 丁贾明 邓云翀 王俊杰  马涛 贾子垚 张强  (74)专利代理 机构 北京久诚知识产权代理事务 所(特殊普通 合伙) 11542 专利代理师 王云海 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称 融合领域知识的细分行业新闻快速分类方 法与系统 (57)摘要 本发明提供一种融合领域知识的细分行业 新闻快速分类方法和系统, 涉及文本分类领域。 本发明中: S1、 采集并预处理面向细分行业的新 闻; S2、 采用命名实体识别方式获取新闻标题对 应的第一命名实体集, 对所述第一命名实体集中 每一个实体, 从预先构建的非对称实体 关联网络 中抽取第一实体 关联集, 若所述第一实体关联集 为非空集, 则转入S3; S3、 根据所述第一命名实体 集和第一实体 关联集, 采用朴素贝叶斯算法计算 所述新闻标题对应的每个分类类别的条件概率; 若条件概率大于第一阈值, 获取该新闻的初步分 类。 所述非对称关系网络图包含了面向细分行业 的大规模实体及其相互关系, 仅通过新闻标题初 步分类得到对应的新闻类别, 在一定程度上提高 了新闻分类 速度。 权利要求书2页 说明书10页 附图2页 CN 115033686 A 2022.09.09 CN 115033686 A 1.一种融合领域知识的细分行业 新闻快速分类方法, 其特 征在于, 包括: S1、 采集并预处 理面向细分行业的新闻; S2、 采用命名实体识别方式获取新闻标题对应的第一命名实体集, 对所述第一命名实 体集中每一个实体, 从预先构建的非对称实体关联网络中抽取第一实体关联集, 若所述第 一实体关联集 为非空集, 则转入S3; S3、 根据所述第一命名实体集和第一实体关联集, 采用朴素贝叶斯算法, 计算所述新闻 标题对应的每 个分类类别的条件概 率; 若条件概 率大于第一阈值, 获取 该新闻的初步分类。 2.如权利要求1所述的细分行业新闻快速分类方法, 其特征在于, 若所述S3 中条件概率 小于等于第一阈值, 则转入S4~6; S4、 采用命名实体识别方式获取新闻正文摘要对应的第二命名实体集, 对所述第二命 名实体集中的每一个实体, 从所述非对称实体关联网络抽取第二实体关联集; S5、 联合所述第一命名实体集和第二命名实体集, 以及所述第一实体关联集和第二实 体关联集, 融合所述非对称实体关联网络中的关系强度, 获取各个实体的第一联合嵌入表 示; S6、 根据所述第一联合嵌入表示, 采用注意力机制获取 该新闻的第一深度分类。 3.如权利要求2所述的细分行业 新闻快速分类方法, 其特 征在于, 所述S5包括: 第一命名实体集E=ET∪EM, 其中ET表示第一命名实体集, EM表示第一实体关联集; 第一 实体关联集E ′=E′T∪E′M, 其中E′T表示第一命名实体集, E ′M表示第一实体关联集; 采用实体嵌入分别对E和E ′中的每一个实体进行嵌入表示得到 和 并融合非对 称实体关联网络中的关系强度, 得到每一个实体ei的第一联合嵌入表示xi; 其中, μ∈(0,1), μ表示用于平衡 和 重要性的超参数。 4.如权利要求1所述的细分行业新闻快速分类方法, 其特征在于, 若S2中所述第 一实体 关联集为空集, 则转入S3 ’~5’; S3’、 采用命名实体识别方式获取新闻正文摘要对应的第 二命名实体集, 对所述第二命 名实体集中的每一个实体, 从所述非对称实体关联网络抽取第二实体关联集; S4’、 根据所述第二命名实体集和第二实体关联集, 融合所述非对称实体关联网络中的 关系强度, 获取 各个实体的第二联合嵌入表示; S5’、 根据所述第二联合嵌入表示, 采用注意力机制获取 该新闻的第二深度分类。 5.如权利要求1~4任一项所述的细分行业新闻快速分类方法, 其特征在于, 所述非对 称实体关联网络的构建过程包括: S10、 定义所述 面向细分行业内实体 类别并识别命名实体, 获取第三命名实体集; S20、 以所述第三命名实体集的实体为节点, 实体间非对称关系强度为有向边, 构建所 述非对称实体关联网络 。 6.如权利要求5所述的细分行业 新闻快速分类方法, 其特 征在于, 所述S10具体包括: S101、 实体 类别定义;权 利 要 求 书 1/2 页 2 CN 115033686 A 2基于所述非对称实体关联网络 图的实际用途, 并结合该细分行业专家 的指导意见, 定 义领域实体 类别; S102、 命名实体识别; 首先, 基于该细分行业的新闻语料库, 随机抽取若干条文本数据作为标注对象, 以命名 实体识别的标注标准为依据, 形成实验数据集; 然后, 采用监督学习 方法识别命名实体, 获 取所述第三命名实体集。 7.如权利要求5所述的细分行业 新闻快速分类方法, 其特 征在于, 所述S20中: 基于大规模新闻语料库, 根据实体在同一篇新闻中出现的次数计算所述非对称关系强 度; 其中, P(Ei∪Ej)表示实体Ei和Ej在大规模新闻语料库中同时出现 的概率, P(Ej)表示实 体Ej在大规模语料库中单独出现的概率, 表示非对称实体关联网络图中实体Ei对 实体Ej的关系强度; 通过保留 值大于第二阈值θ的关系, θ为经验值, 从而构建所述的非对称实体 关联网络 。 8.一种融合领域知识的细分行业 新闻快速分类系统, 其特 征在于, 包括: 预处理模块, 用于执 行S1、 采集并预处 理面向细分行业的新闻; 实体抽取模块, 用于执行S2、 采用命名实体识别方式获取新闻标题对应的第一命名实 体集, 对所述第一命名实体集中每一个实体, 从预先构建的非对称实体关联网络中抽取第 一实体关联集, 若所述第一实体关联集 为非空集, 则转入新闻分类模块执 行S3; 新闻分类模块, 用于执行S3、 根据所述第一命名实体集和第一实体关联集, 采用朴素贝 叶斯算法, 计算所述新闻标题对应的每个 分类类别的条件概率; 若 条件概率大于第一阈值, 获取该新闻的初步分类。 9.一种存储介质, 其特征在于, 其存储有用于融合领域知识的细分行业新闻快速分类 的计算机程序, 其中, 所述计算机程序使得计算机执行如权利要求1~7任一项所述的细分 行业新闻快速分类方法。 10.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储器; 以及 一个或多个程序, 其中所述一个或多个程序被存储在所述存储器中, 并且被配置成由 所述一个或多个处理器执行, 所述程序包括用于执行如权利要求 1~7任一项 所述的细分行 业新闻快速分类方法。权 利 要 求 书 2/2 页 3 CN 115033686 A 3

.PDF文档 专利 融合领域知识的细分行业新闻快速分类方法与系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合领域知识的细分行业新闻快速分类方法与系统 第 1 页 专利 融合领域知识的细分行业新闻快速分类方法与系统 第 2 页 专利 融合领域知识的细分行业新闻快速分类方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。