(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211207006.7
(22)申请日 2022.09.30
(71)申请人 加和 (北京) 信息科技有限公司
地址 100020 北京市朝阳区朝阳 北路237号
楼11层1201、 1209
(72)发明人 行康泽 王可攀
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 李世喆
(51)Int.Cl.
G06F 16/2458(2019.01)
G06Q 30/02(2012.01)
(54)发明名称
提数任务时长预测模 型的训练方法及 装置、
介质、 设备
(57)摘要
本说明书实施例提供了一种提数任务时长
预测模型的训练方法及装置、 介质、 设备。 方法包
括: 获取历史提数任务; 根据每一条历史提数任
务, 生成对应的特征向量; 其中, 所述特征向量中
的每一个元素对应一类提数参数, 且每一个元素
的值为在该条历史提数任务中该元素在各个广
告投放活动中对应的该类提数参数的键值的和;
获取每一条历史提数任务对应的实际耗费时长,
并将每一条历史提数任务对应的特征向量和对
应的实际耗费时长作为一条训练样 本; 根据多条
训练样本进行模 型训练, 得到提数任务时长预测
模型。 通过本发 明实施例提供的方法训练得到的
提数任务时长预测模型可以准确且稳定的对提
数任务的耗费时长进行 预测。
权利要求书2页 说明书10页 附图2页
CN 115544116 A
2022.12.30
CN 115544116 A
1.一种提数任务时长预测模型的训练方法, 其特 征在于, 包括:
获取历史提数任务; 其中, 所述历史提数任务为在预设历史时间段内从广告投放数据
中提取数据的任务, 每一条历史提数任务中包括活动集合和至少 两类提数参数 的键值, 所
述活动集 合中包括至少一个广告投放活动的标识;
根据每一条历史提数任务, 生成对应的特征向量; 其中, 所述特征向量中的每一个元素
对应一类提数参数, 且每一个元素的值为在该条历史提数任务中该元素在各个广告投放活
动中对应的该类提数参数的键值的和;
获取每一条历史提数任务对应的实际耗费时长, 并将每一条历史提数任务对应的特征
向量和对应的实际耗费时长作为 一条训练样本;
根据多条训练样本进行模型训练, 得到提数任务时长预测模型。
2.根据权利要求1所述的方法, 其特征在于, 所述根据每一条历史提数任务, 生成对应
的特征向量之前, 所述方法还 包括:
从获取到的历史提数任务中剔除实际耗费时长超出 预设时长的历史提数任务。
3.根据权利要求1所述的方法, 其特征在于, 所述根据每一条历史提数任务, 生成对应
的特征向量, 包括:
构建初始 的第一数据表; 其中, 所述第一数据表的第一行标识为各个历史提数任务的
标识, 所述第一数据表的第二行标识为N1个广告投放活动的标识, 每一个第一行标识对应
N1个第二行标识; 所述第一数据 表的列标识 为每一个广告投放活动对应的N2类提数参数的
标识, N1和N2为正整数, N1为所述活动集合中广告投放活动的预设最大次数, N2 为提数参数
的预设最多类别数量;
从每一条历史提数任务中提取出每一个广告投放活动中所述至少两类提数参数的键
值, 并将所述键值导入所述第一数据 表中该条历史提数任务的该个广告投放活动对应的行
与各类提数参数对应的各个列的交叉位置处;
在各条历史提数任务的键值均导入完成后, 将所述第 一数据表中未导入数据的位置处
置为0;
针对所述第 一数据表中每一条历史提数任务的各个广告投放活动对应的各行数据, 计
算位于同一列 的各个键值之和, 不同列 的键值之和形成该条历史提数任务对应的特征向
量。
4.根据权利要求1所述的方法, 其特征在于, 所述根据多条训练样本进行模型训练, 得
到提数任务时长预测模型, 包括:
基于梯度增强决策树 算法, 构建所述 提数任务时长预测模型的框架;
采用贝叶斯优化模型选取超参数;
基于所选取的超参数, 根据所述多条训练样本对所述框架进行模型训练, 得到所述提
数任务时长预测模型。
5.根据权利要求1所述的方法, 其特 征在于, 还 包括:
获取每一条历史提数任务对应的状态数据; 其中, 所述状态数据为服务器集群的运行
状态数据;
对应的, 所述将每一条历史提数任务对应的特征向量和对应的实际耗费时长作为一条
训练样本, 包括: 将每一条历史提数任务对应的特征向量、 对应的状态数据以及 对应的实际权 利 要 求 书 1/2 页
2
CN 115544116 A
2耗费时长作为 一条训练样本 。
6.根据权利要求1所述的方法, 其特征在于, 所述根据多条训练样本进行模型训练, 得
到提数任务时长预测模型之前, 所述方法还 包括:
对每一条训练样本 中的离散型数据进行编码处理, 并对每一条训练样本 中的连续性数
据进行归一 化处理, 以实现对每一条训练样本的修 正处理;
对应的, 所述根据多条训练样本进行模型训练, 得到提数任务时长预测模型, 包括: 利
用修正处理后的多条训练样本进行模型训练, 得到提数任务时长预测模型。
7.根据权利要求1所述的方法, 其特 征在于, 还 包括:
在利用所述提数任务 时长预测模型输出一个提数任务的预测耗费时长后, 根据 所述预
测耗费时长和实际耗费时长确定所述提数任务时长预测模型针对本次提数任务的预测 误
差;
每隔单位 时间段根据本次单位 时间段内的提数任务对应的预测误差, 确定是否满足模
型更新条件;
若是, 则根据本次单位时间段内的提数任务的实 际耗费时长, 对所述提数任务时长预
测模型进行 更新。
8.一种提数任务时长预测模型的训练装置, 其特 征在于, 包括:
任务获取模块, 用于获取历史提数任务; 其中, 所述历史提数任务为在预设历史时间段
内从广告投放数据中提取数据的任务, 每一条历史提数任务中包括活动集合和至少两类提
数参数的键值, 所述活动集 合中包括至少一个广告投放活动的标识;
向量生成模块, 用于根据每一条历史提数任务, 生成对应的特征向量; 其中, 所述特征
向量中的每一个元素对应一类提数参数, 且每一个元素的值为在该条历史提数任务中该元
素在各个广告投放活动中对应的该类提数参数的键值的和;
耗时获取模块, 用于获取每一条历史提数任务对应的实 际耗费时长, 并将每一条历史
提数任务对应的特 征向量和对应的实际耗费时长作为 一条训练样本;
模型训练模块, 用于根据多条训练样本进行模型训练, 得到提数任务时长预测模型。
9.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 当所述计算机程序
在计算机中执 行时, 令计算机执 行实现权利要求1~7中的任一项所述的方法。
10.一种计算设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有可执行代
码, 所述处 理器执行所述可执行代码时, 实现权利要求1~7中的任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115544116 A
3
专利 提数任务时长预测模型的训练方法及装置、介质、设备
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:43上传分享