说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211358182.0 (22)申请日 2022.11.01 (71)申请人 上海瀛数信息科技有限公司 地址 200081 上海市虹口区东体 育会路10 0 弄1号1404室 (72)发明人 刘丽娟 闵宗茹 巨星海 黄勃南  池淏 张明金 杜俊丽  (51)Int.Cl. G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 16/958(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多角度特征学习的主题网页信息 抽取方法 (57)摘要 本发明涉及网页信息抽取技术领域, 具体公 开了一种基于多角度特征学习的主题网页信息 抽取方法, 且公开了本发明使用网页爬虫, 获取 页面的HTML源码, 可以对页面的内容特征进行提 取, 包括标题、 域名、 IP归属地等。 对于网页标题 和网页内容中的特征, 采用相应字符串匹配和识 别算法来实现提取特征; 对于域名信息、 IP归属 地、 搜索引擎等数据, 则借助相应的接口, 完成信 息提取和特征 获取, 基于多角度特征学习的主题 网页信息抽取方法比关键词法的F值提高了4% 以上, 验证了该方法的有效性; 关键词法相比SV M 法, F值降低了10%; 相比本文法, F值降低了 17%, 可见该方法在算法可行性和效果上均优于 其他方法。 权利要求书3页 说明书7页 附图2页 CN 115544345 A 2022.12.30 CN 115544345 A 1.一种基于多角度特征学习的主题网页信息抽取方法, 其特征在于: 包括主题网页抽 取与爬虫抽取原理。 一种基于多角度特 征学习的主题网页信息抽取 方法, 包含以下步骤: 一、 文本分词 二、 多角度特 征分析 从网页标题、 网页内容、 域名信息、 IP归属地等角度选取7个特征。 通过提取网页的主题 特征, 对其量化处理, 生成特 征向量进行分析; 将网页标题和网页内容分开分析, 为各自特 征赋予对应的权 重, 具体过程如下: 使用特征函数Fi来分别刻画其对应的身份特 征, 定义某一网页的身份特 征向量: F={F1, F2, F3, F4, F5, F6, F 7}              (1) 其中F1为网页标题是否包含主题重点词, F2为网页标题是否命中主题衍生词, F3为网 页内容是否包含主题重点词, F4为网页内容是否命中主题衍生词, F5为域名注册商是否为 境外公司, F6为 IP归属地是否为 境外, F7为网页标题在搜索引擎是否有返回结果; 每个特征函数的输出为实数值, 表示网页中对应的身份特 征状态, 具体定义如下: F1: 网页标题是否包含主题重点词, 为突出重点, 网页往往会拟定夺人眼球的网页 标题 吸引读者, 此类标题往 往包含主题重点词; F1的定义如下: F2: 网页标题是否命中主题衍 生词; F2的定义如下: F3: 网页内容是否包 含主题重点词; F3的定义如下: F4: 网页内容是否命中特定敏感词; F4的定义如下:权 利 要 求 书 1/3 页 2 CN 115544345 A 2F5: 域名注 册商是否为 境外公司; F5的定义如下: F6: IP归属地是否为 境外; F6的定义如下: F7: 网页标题在搜索引擎的返回结果; F7的定义如下: 三、 模型深度学习训练 将上述F1、 F2 …Fi的敏感特征经过独立的循环神经网络后, 再经过全连接神经网络, 进 行后期融合, 使得每 个独立的循环神经网络都能学习到, 模型准确率较高。 具体是根据上述特征, 判断一个网站是否为主题网页时, 使用线性分类器进行处理, 线 性分类函数如式(2): S=f(∑Fi×wi); 0<i≤8 (2) 式(2)中, Fi表示网页敏感身份特征的取值, Fi=1时, 判断该网站为主题网站; Fi= ‑1 时, 则表示页面正常, 该网站为正常网站, 式(2)中, wi为7个敏感特征分量的权值, 其相应的 计算公式如式(3): 而上式中ei的计算公式为式(4): 权 利 要 求 书 2/3 页 3 CN 115544345 A 3

PDF文档 专利 一种基于多角度特征学习的主题网页信息抽取方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多角度特征学习的主题网页信息抽取方法 第 1 页 专利 一种基于多角度特征学习的主题网页信息抽取方法 第 2 页 专利 一种基于多角度特征学习的主题网页信息抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。