专利 一种基于多角度特征学习的主题网页信息抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211358182.0 (22)申请日 2022.11.01 (71)申请人上海瀛数信息科技有限公司地址 200081 上海市虹口区东体育会路10 0 弄1号1404室 (72)发明人刘丽娟　闵宗茹　巨星海　黄勃南　池淏　张明金　杜俊丽　 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 16/958(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多角度特征学习的主题网页信息抽取方法 (57)摘要本发明涉及网页信息抽取技术领域，具体公开了一种基于多角度特征学习的主题网页信息抽取方法，且公开了本发明使用网页爬虫，获取页面的HTML源码，可以对页面的内容特征进行提取，包括标题、域名、 IP归属地等。对于网页标题和网页内容中的特征，采用相应字符串匹配和识别算法来实现提取特征；对于域名信息、 IP归属地、搜索引擎等数据，则借助相应的接口，完成信息提取和特征获取，基于多角度特征学习的主题网页信息抽取方法比关键词法的F值提高了4％以上，验证了该方法的有效性；关键词法相比SV M 法， F值降低了10％；相比本文法， F值降低了 17％，可见该方法在算法可行性和效果上均优于其他方法。权利要求书3页说明书7页附图2页 CN 115544345 A 2022.12.30 CN 115544345 A 1.一种基于多角度特征学习的主题网页信息抽取方法，其特征在于：包括主题网页抽取与爬虫抽取原理。一种基于多角度特征学习的主题网页信息抽取方法，包含以下步骤：一、文本分词二、多角度特征分析从网页标题、网页内容、域名信息、 IP归属地等角度选取7个特征。通过提取网页的主题特征，对其量化处理，生成特征向量进行分析；将网页标题和网页内容分开分析，为各自特征赋予对应的权重，具体过程如下：使用特征函数Fi来分别刻画其对应的身份特征，定义某一网页的身份特征向量： F＝{F1， F2， F3， F4， F5， F6， F 7} (1) 其中F1为网页标题是否包含主题重点词， F2为网页标题是否命中主题衍生词， F3为网页内容是否包含主题重点词， F4为网页内容是否命中主题衍生词， F5为域名注册商是否为境外公司， F6为 IP归属地是否为境外， F7为网页标题在搜索引擎是否有返回结果；每个特征函数的输出为实数值，表示网页中对应的身份特征状态，具体定义如下： F1：网页标题是否包含主题重点词，为突出重点，网页往往会拟定夺人眼球的网页标题吸引读者，此类标题往往包含主题重点词； F1的定义如下： F2：网页标题是否命中主题衍生词； F2的定义如下： F3：网页内容是否包含主题重点词； F3的定义如下： F4：网页内容是否命中特定敏感词； F4的定义如下：权　利　要　求　书 1/3 页 2 CN 115544345 A 2F5：域名注册商是否为境外公司； F5的定义如下： F6： IP归属地是否为境外； F6的定义如下： F7：网页标题在搜索引擎的返回结果； F7的定义如下：三、模型深度学习训练将上述F1、 F2 …Fi的敏感特征经过独立的循环神经网络后，再经过全连接神经网络，进行后期融合，使得每个独立的循环神经网络都能学习到，模型准确率较高。具体是根据上述特征，判断一个网站是否为主题网页时，使用线性分类器进行处理，线性分类函数如式(2)： S＝f(∑Fi×wi)； 0＜i≤8 (2) 式(2)中， Fi表示网页敏感身份特征的取值， Fi＝1时，判断该网站为主题网站； Fi＝ ‑1 时，则表示页面正常，该网站为正常网站，式(2)中， wi为7个敏感特征分量的权值，其相应的计算公式如式(3)：而上式中ei的计算公式为式(4)：权　利　要　求　书 2/3 页 3 CN 115544345 A 3

专利 一种基于多角度特征学习的主题网页信息抽取方法

专利一种基于多角度特征学习的主题网页信息抽取方法