(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211358182.0
(22)申请日 2022.11.01
(71)申请人 上海瀛数信息科技有限公司
地址 200081 上海市虹口区东体 育会路10 0
弄1号1404室
(72)发明人 刘丽娟 闵宗茹 巨星海 黄勃南
池淏 张明金 杜俊丽
(51)Int.Cl.
G06F 16/951(2019.01)
G06F 16/955(2019.01)
G06F 16/958(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于多角度特征学习的主题网页信息
抽取方法
(57)摘要
本发明涉及网页信息抽取技术领域, 具体公
开了一种基于多角度特征学习的主题网页信息
抽取方法, 且公开了本发明使用网页爬虫, 获取
页面的HTML源码, 可以对页面的内容特征进行提
取, 包括标题、 域名、 IP归属地等。 对于网页标题
和网页内容中的特征, 采用相应字符串匹配和识
别算法来实现提取特征; 对于域名信息、 IP归属
地、 搜索引擎等数据, 则借助相应的接口, 完成信
息提取和特征 获取, 基于多角度特征学习的主题
网页信息抽取方法比关键词法的F值提高了4%
以上, 验证了该方法的有效性; 关键词法相比SV M
法, F值降低了10%; 相比本文法, F值降低了
17%, 可见该方法在算法可行性和效果上均优于
其他方法。
权利要求书3页 说明书7页 附图2页
CN 115544345 A
2022.12.30
CN 115544345 A
1.一种基于多角度特征学习的主题网页信息抽取方法, 其特征在于: 包括主题网页抽
取与爬虫抽取原理。
一种基于多角度特 征学习的主题网页信息抽取 方法, 包含以下步骤:
一、 文本分词
二、 多角度特 征分析
从网页标题、 网页内容、 域名信息、 IP归属地等角度选取7个特征。 通过提取网页的主题
特征, 对其量化处理, 生成特 征向量进行分析;
将网页标题和网页内容分开分析, 为各自特 征赋予对应的权 重, 具体过程如下:
使用特征函数Fi来分别刻画其对应的身份特 征, 定义某一网页的身份特 征向量:
F={F1, F2, F3, F4, F5, F6, F 7} (1)
其中F1为网页标题是否包含主题重点词, F2为网页标题是否命中主题衍生词, F3为网
页内容是否包含主题重点词, F4为网页内容是否命中主题衍生词, F5为域名注册商是否为
境外公司, F6为 IP归属地是否为 境外, F7为网页标题在搜索引擎是否有返回结果;
每个特征函数的输出为实数值, 表示网页中对应的身份特 征状态, 具体定义如下:
F1: 网页标题是否包含主题重点词, 为突出重点, 网页往往会拟定夺人眼球的网页 标题
吸引读者, 此类标题往 往包含主题重点词;
F1的定义如下:
F2: 网页标题是否命中主题衍 生词;
F2的定义如下:
F3: 网页内容是否包 含主题重点词;
F3的定义如下:
F4: 网页内容是否命中特定敏感词;
F4的定义如下:权 利 要 求 书 1/3 页
2
CN 115544345 A
2F5: 域名注 册商是否为 境外公司;
F5的定义如下:
F6: IP归属地是否为 境外;
F6的定义如下:
F7: 网页标题在搜索引擎的返回结果;
F7的定义如下:
三、 模型深度学习训练
将上述F1、 F2 …Fi的敏感特征经过独立的循环神经网络后, 再经过全连接神经网络, 进
行后期融合, 使得每 个独立的循环神经网络都能学习到, 模型准确率较高。
具体是根据上述特征, 判断一个网站是否为主题网页时, 使用线性分类器进行处理, 线
性分类函数如式(2):
S=f(∑Fi×wi); 0<i≤8 (2)
式(2)中, Fi表示网页敏感身份特征的取值, Fi=1时, 判断该网站为主题网站; Fi= ‑1
时, 则表示页面正常, 该网站为正常网站, 式(2)中, wi为7个敏感特征分量的权值, 其相应的
计算公式如式(3):
而上式中ei的计算公式为式(4):
权 利 要 求 书 2/3 页
3
CN 115544345 A
3
专利 一种基于多角度特征学习的主题网页信息抽取方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:02上传分享