(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210964817.5
(22)申请日 2022.08.12
(71)申请人 中博信息技 术研究院有限公司
地址 210012 江苏省南京市雨 花台区小行
尤家凹08号
(72)发明人 费春勇 何伟 黄峰
(74)专利代理 机构 常州佰业腾飞专利代理事务
所(普通合伙) 32231
专利代理师 任珊珊
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/9536(2019.01)
G06F 16/9538(2019.01)
G06F 16/951(2019.01)
G06Q 10/04(2012.01)G06Q 10/06(2012.01)
G06Q 10/10(2012.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于LambdaMart 的通讯录搜索智能排
序方法
(57)摘要
本发明公开了一种基于LambdaMart 的通讯
录搜索智能排序方法, 属于大数据技术领域, 包
括利用基于LambdaMart的搜索智能排序计算方
法, 根据通讯录相关的组织、 部门、 姓名、 往来邮
件、 和用户搜索行为日志等信息进行特征构造,
并利用LambdaMart模型对上述特征进行训练, 从
而得到一个比较好的模型, 并最终将该模型进行
部署, 解决了传统的搜索系统中基于规则的搜索
排序的不准确和比较差的使用体验的技术问题,
本发明与基于匹配形式的搜索相比具有更好的
泛化能力, 大大提高了用户的体验和搜索的速
度, 从而提高了办公的效率, 并且该方法不仅适
用于电信领域的通讯录搜索系统, 还适应于其他
需要智能搜索排序的其 他领域。
权利要求书1页 说明书5页 附图4页
CN 115048587 A
2022.09.13
CN 115048587 A
1.一种基于LambdaMar t的通讯录 搜索智能排序方法, 其特 征在于: 包括如下步骤:
步骤1: 在特征工程层以用户搜索的行为日志作为数据源进行数据的特征构造, 包括如
下步骤:
步骤S1‑1: 构造基于细分业 务的相关特 征;
步骤S1‑2: 构造与搜索行为相关的特征, 包括Query ‑Doc的相关性、 Query在文档中出现
的次数, 还 包括査询词的Proximity计算结果、 doc 长度、 BM25计算结果和tfidf计算结果;
步骤S1‑3: 以用户的点击行为为日志, 搜集记录用户点击的序列、 点击先后顺序、 观看
时间和日志曝光情况, 生成label特 征;
步骤2: 在数据存 储层对步骤1中构造后的数据进行存 储;
步骤3: 在机器学习接口层构建NDCG排序评估模型, 即以top数据的准确率作为训练的
指标, 最终得到一个排序模型, 并对排序模型进行部署;
步骤4: 在数据展示层利用vue进行数据的展示, 并结合element ui进行界面的设计和
展示。
2.如权利 要求1所述的一种基于L ambdaMart的通讯录搜索智能排序方法, 其特征在于:
在执行步骤S1 ‑1时, 所述细分业务包括集团或个人检索通讯录和邮件地址本、 往来人员, 人
力树最短路径和岗级。
3.如权利 要求1所述的一种基于L ambdaMart的通讯录搜索智能排序方法, 其特征在于:
在执行步骤2时, 采用以下 数据格式对步骤1中构造后的数据进行存 储:
数据格式:label qid: 特征1: 特征2: 特征3: ...特征N。
4.如权利 要求1所述的一种基于L ambdaMart的通讯录搜索智能排序方法, 其特征在于:
所述label特征的设置包括Long click长点击设置类别为3、 Middle click中点击设置类别
为2、 Shor t click短点击设置类别为1和Impres sion曝光未点击设置类别为0 。
5.如权利 要求1所述的一种基于L ambdaMart的通讯录搜索智能排序方法, 其特征在于:
在处理日志曝光情况时, 具体包括如下步骤:
步骤S1‑3‑1: 使用曝光日志时选择埋 点日志;
步骤S1‑3‑2: 在处理用户样本时, 包括如下两个方式:
方式一: 保留有行为的用户的负 样本, 其他的负样本进行随机负采样;
方式二: 去除只有曝光但没有点击操作的用户的样本;
步骤S1‑3‑3: 根据用户最后一次点击行为的位置, 过 滤掉最后一次点击之后的展示。
6.如权利 要求1所述的一种基于L ambdaMart的通讯录搜索智能排序方法, 其特征在于:
在执行步骤3时, 在机器学习接口层采用RankNet、 LambdaRank、 LambdaMart和RankSVM算法
构建排序模型。权 利 要 求 书 1/1 页
2
CN 115048587 A
2一种基于La mbdaMart的通讯录搜索 智能排序方 法
技术领域
[0001]本发明属于大数据技术领域, 尤其涉及一种基于LambdaMart的通讯录搜索智能排
序方法。
背景技术
[0002]在互联网应用场景中, 排序是非常核心的模块。 一个最直接的应用, 就是日常生活
常用到的搜索引擎。 用户通过搜索框提交qu ery, 搜索引擎会返回一些与qu ery相关的文档,
并根据相关度大小排序后展示给用户。 这一应用场景中, 最相关的一些文档能否通过排序
后优先展示, 将直接影响用户。 除这些之外, 排序算法也应用于在线广告、 协同过滤、 多媒体
检索等领域。 传统排序方法, 基于人工方式做策略组合, 在数据量较小时能够起到作用。 随
着互联网数据量的增加, 这种 方法变得越来越困难。 因而, 更自然的解决方案, 是开发基于
机器学习的搜索引擎 排序算法。 这种算法通常称之为 Learning to Rank(LTR)。
[0003]在实际业务中, 集团邮箱通讯录排序功能体验存在缺陷, 不符合用户需求, 造成用
户投诉。 这 就需要实现一种智能排序方法, 来 解决该问题。
发明内容
[0004]本发明的目的是提供一种基于LambdaMart的通讯录搜索智能排序方法, 解决了传
统的搜索系统中基于规则的搜索排序的不 准确和比较差的使用体验的技 术问题。
为实现上述目的, 本发明采用如下技术方案: 一种基于LambdaMart的通讯录搜索
智能排序方法, 包括如下步骤:
步骤1: 在特征工程层以用户搜索的行为日志作为数据 源进行数据的特征构造, 包
括如下步骤:
步骤S1‑1: 构造基于细分业 务的相关特 征;
步骤S1‑2: 构造与搜索行为相关的特征, 包括Query ‑Doc的相关性、 Query在文档中
出现的次数, 还包括査询词的Proximity计算结果、 doc长度、 BM25计算结果和tfidf计算结
果;
步骤S1‑3: 以用户的点击行为为日志, 搜集记录用户点击的序列、 点击先后顺序、
观看时间和日志曝光情况, 生成label特 征;
步骤2: 在数据存 储层对步骤1中构造后的数据进行存 储;
步骤3: 在机器学习接口层构建NDCG排序评估模型, 即以top数据的准确率作为训
练的指标, 最终得到一个排序模型, 并对排序模型进行部署;
步骤4: 在数据展示层利用vue进行数据的展示, 并结合element ui进行界面的设
计和展示。
[0005]优选的, 在执行步骤S1 ‑1时, 所述细分业务包括集团或个人检索通讯录和邮件地
址本、 往来人员, 人力树 最短路径和岗级。
[0006]优选的, 在执 行步骤2时, 采用以下 数据格式对步骤1中构造后的数据进行存 储:说 明 书 1/5 页
3
CN 115048587 A
3
专利 一种基于LambdaMart的通讯录搜索智能排序方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:04上传分享