(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211359353.1
(22)申请日 2022.11.02
(71)申请人 成都宏恒信息科技有限公司
地址 610000 四川省成 都市天府新区正兴
街道湖畔路北段269号1栋1单 元5楼
(72)发明人 王刚 彭保
(74)专利代理 机构 四川域策汇智知识产权代理
有限公司 513 51
专利代理师 郭禾苗
(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 50/26(2012.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于深度NLP的社区重点人员画 像分析方法
及装置
(57)摘要
本发明公开了基于深度NLP的社区重点人员
画像分析方法及装置, 包括: 采集社区重点人员
数据, 并对重点人员数据进行预处理; 采用
word2ve算法对所述重点人员数据进行数值化处
理; 将数值化处理后的数据输入至CNN模型中进
行特征提取; 将提取的特征数据输入至LSTM网络
中, 得到局部特征的长距离特征, 并经全连接层
输出分类的标签数据; 对分类的标签数据进行层
次分析法权重分配, 并求得人员个体的风险值;
求得任一重点人员的离群程度; 根据人员个体的
风险值和离群程度, 采用多 标签聚类算法进行重
点人员画像合成。 通过上述方案, 本发明具有逻
辑简单、 准确可靠等优点。
权利要求书3页 说明书7页 附图1页
CN 115409433 A
2022.11.29
CN 115409433 A
1.基于深度N LP的社区重点人员画像分析 方法, 其特 征在于, 包括以下步骤:
采集社区重点人员数据, 并对重点人员数据进行 预处理;
采用word2ve算法对所述重点人员数据进行 数值化处理;
将数值化处理后的数据输入至 CNN模型中进行 特征提取;
将提取的特征数据输入至LSTM网络中, 得到局部特征的长距离特征, 并经全连接层输
出分类的标签数据;
对分类的标签数据进行层次分析法权 重分配, 并求得 人员个体的风险值;
求得任一重点人员的离群程度;
根据人员个 体的风险值和离群程度, 采用多标签聚类算法进行重点人员画像合成。
2.根据权利要求1所述的基于深度NLP的社区重点人员画像分析方法, 其特征在于, 对
重点人员的数据的进 行预处理, 采用基于词典规则的中文分词方法对重点人员的数据进 行
处理。
3.根据权利要求1所述的基于深度NLP的社区重点人员画像分析方法, 其特征在于, 所
述人员个 体的风险值的表达式为:
其中,
表示个体的风险值;
表示标签的数量;
表示标签风险度;
表示标签对应的风险权 重。
4.根据权利要求3所述的基于深度NLP的社区重点人员画像分析方法, 其特征在于, 所
述风险权重采用以下步骤获取:
将数个标签作为输入, 并搭建层次结构模型;
构造判断矩阵;
对判断矩阵的任一列向量进行归一化后将任一行向量求和, 并进行归一化处理得到列
向量
, 其表达式为:
其中,
表示构造的判断矩阵,
表示归一化的判断矩阵,
表示第
行第j列
的元素,
表示行数;
对列向量
的层次总排序, 求得第K层元 素相对于总目标的排序为:
权 利 要 求 书 1/3 页
2
CN 115409433 A
2其中,
表示第K层元素相对于第K ‑1层元素的排序;
表示K‑1层元素对总目标的
权重。
5.根据权利要求3所述的基于深度NLP的社区重点人员画像分析方法, 其特征在于, 所
述重点人员的离群程度的局部 离群因子的表达式为:
其中,
表示对于点
的第
距离,
;
表示距离领域点
的第
距离领域;
表示点
的局部可达密度;
表示点
的局部可达密度;
表示第
个标签的权重值;
表示第
个标签欧氏距离;
表示
和
两点之间的距离;
表示局部 离群因子 。
6.根据权利要求1所述的基于深度NLP的社区重点人员画像分析方法, 其特征在于, 根
据人员个 体的风险值和离群程度, 采用多标签聚类算法进行重点人员画像合成, 包括:
抽取人员个体的风险值和离群程度的标签, 并计算任一标签对应的用户人 数;
采用余弦相似度函数计算标签之间的相关性, 其表达式为:
其中, A和B表示标签;
表示A标签对应个体风险值与离群程度对应的
维向量;
表示B标签对应 个体风险值与离群程度对应的
维向量;
筛选出与每个A类标签相 关性最大的B类标签, 并将该A类标签归类到该B类标签, 最终
得到最终的用户画像。
7.一种基于深度N LP的社区重点人员画像分析装置, 其特 征在于, 包括:
数据采集预处 理模块, 采集社区重点人员数据, 并对重点人员数据进行 预处理;
数值化处理模块, 与数据采集预处理模块连接, 采用word2ve算法对所述重点人员数据
进行数值化处理;
CNN模型, 与数值化处理模块连接, 将数值化处理后的数据输入至CNN模型中进行特征
提取;
LSTM网络, 与CNN模型连接, 将提取的特征数据输入至LSTM网络中, 得到局部特征的长
距离特征, 并经全连接层输出分类的标签数据;
层次分析模块, 与LSTM 网络连接, 对分类的标签数据进行层次分析法权重分配, 并求得
人员个体的风险值;权 利 要 求 书 2/3 页
3
CN 115409433 A
3
专利 基于深度NLP的社区重点人员画像分析方法及装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:00上传分享