专利 提数任务时长预测模型的训练方法及装置、介质、设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211207006.7 (22)申请日 2022.09.30 (71)申请人加和（北京）信息科技有限公司地址 100020 北京市朝阳区朝阳北路237号楼11层1201、 1209 (72)发明人行康泽　王可攀　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师李世喆 (51)Int.Cl. G06F 16/2458(2019.01) G06Q 30/02(2012.01) (54)发明名称提数任务时长预测模型的训练方法及装置、介质、设备 (57)摘要本说明书实施例提供了一种提数任务时长预测模型的训练方法及装置、介质、设备。方法包括：获取历史提数任务；根据每一条历史提数任务，生成对应的特征向量；其中，所述特征向量中的每一个元素对应一类提数参数，且每一个元素的值为在该条历史提数任务中该元素在各个广告投放活动中对应的该类提数参数的键值的和；获取每一条历史提数任务对应的实际耗费时长，并将每一条历史提数任务对应的特征向量和对应的实际耗费时长作为一条训练样本；根据多条训练样本进行模型训练，得到提数任务时长预测模型。通过本发明实施例提供的方法训练得到的提数任务时长预测模型可以准确且稳定的对提数任务的耗费时长进行预测。权利要求书2页说明书10页附图2页 CN 115544116 A 2022.12.30 CN 115544116 A 1.一种提数任务时长预测模型的训练方法，其特征在于，包括：获取历史提数任务；其中，所述历史提数任务为在预设历史时间段内从广告投放数据中提取数据的任务，每一条历史提数任务中包括活动集合和至少两类提数参数的键值，所述活动集合中包括至少一个广告投放活动的标识；根据每一条历史提数任务，生成对应的特征向量；其中，所述特征向量中的每一个元素对应一类提数参数，且每一个元素的值为在该条历史提数任务中该元素在各个广告投放活动中对应的该类提数参数的键值的和；获取每一条历史提数任务对应的实际耗费时长，并将每一条历史提数任务对应的特征向量和对应的实际耗费时长作为一条训练样本；根据多条训练样本进行模型训练，得到提数任务时长预测模型。 2.根据权利要求1所述的方法，其特征在于，所述根据每一条历史提数任务，生成对应的特征向量之前，所述方法还包括：从获取到的历史提数任务中剔除实际耗费时长超出预设时长的历史提数任务。 3.根据权利要求1所述的方法，其特征在于，所述根据每一条历史提数任务，生成对应的特征向量，包括：构建初始的第一数据表；其中，所述第一数据表的第一行标识为各个历史提数任务的标识，所述第一数据表的第二行标识为N1个广告投放活动的标识，每一个第一行标识对应 N1个第二行标识；所述第一数据表的列标识为每一个广告投放活动对应的N2类提数参数的标识， N1和N2为正整数， N1为所述活动集合中广告投放活动的预设最大次数， N2 为提数参数的预设最多类别数量；从每一条历史提数任务中提取出每一个广告投放活动中所述至少两类提数参数的键值，并将所述键值导入所述第一数据表中该条历史提数任务的该个广告投放活动对应的行与各类提数参数对应的各个列的交叉位置处；在各条历史提数任务的键值均导入完成后，将所述第一数据表中未导入数据的位置处置为0；针对所述第一数据表中每一条历史提数任务的各个广告投放活动对应的各行数据，计算位于同一列的各个键值之和，不同列的键值之和形成该条历史提数任务对应的特征向量。 4.根据权利要求1所述的方法，其特征在于，所述根据多条训练样本进行模型训练，得到提数任务时长预测模型，包括：基于梯度增强决策树算法，构建所述提数任务时长预测模型的框架；采用贝叶斯优化模型选取超参数；基于所选取的超参数，根据所述多条训练样本对所述框架进行模型训练，得到所述提数任务时长预测模型。 5.根据权利要求1所述的方法，其特征在于，还包括：获取每一条历史提数任务对应的状态数据；其中，所述状态数据为服务器集群的运行状态数据；对应的，所述将每一条历史提数任务对应的特征向量和对应的实际耗费时长作为一条训练样本，包括：将每一条历史提数任务对应的特征向量、对应的状态数据以及对应的实际权　利　要　求　书 1/2 页 2 CN 115544116 A 2耗费时长作为一条训练样本。 6.根据权利要求1所述的方法，其特征在于，所述根据多条训练样本进行模型训练，得到提数任务时长预测模型之前，所述方法还包括：对每一条训练样本中的离散型数据进行编码处理，并对每一条训练样本中的连续性数据进行归一化处理，以实现对每一条训练样本的修正处理；对应的，所述根据多条训练样本进行模型训练，得到提数任务时长预测模型，包括：利用修正处理后的多条训练样本进行模型训练，得到提数任务时长预测模型。 7.根据权利要求1所述的方法，其特征在于，还包括：在利用所述提数任务时长预测模型输出一个提数任务的预测耗费时长后，根据所述预测耗费时长和实际耗费时长确定所述提数任务时长预测模型针对本次提数任务的预测误差；每隔单位时间段根据本次单位时间段内的提数任务对应的预测误差，确定是否满足模型更新条件；若是，则根据本次单位时间段内的提数任务的实际耗费时长，对所述提数任务时长预测模型进行更新。 8.一种提数任务时长预测模型的训练装置，其特征在于，包括：任务获取模块，用于获取历史提数任务；其中，所述历史提数任务为在预设历史时间段内从广告投放数据中提取数据的任务，每一条历史提数任务中包括活动集合和至少两类提数参数的键值，所述活动集合中包括至少一个广告投放活动的标识；向量生成模块，用于根据每一条历史提数任务，生成对应的特征向量；其中，所述特征向量中的每一个元素对应一类提数参数，且每一个元素的值为在该条历史提数任务中该元素在各个广告投放活动中对应的该类提数参数的键值的和；耗时获取模块，用于获取每一条历史提数任务对应的实际耗费时长，并将每一条历史提数任务对应的特征向量和对应的实际耗费时长作为一条训练样本；模型训练模块，用于根据多条训练样本进行模型训练，得到提数任务时长预测模型。 9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行实现权利要求1～7中的任一项所述的方法。 10.一种计算设备，其特征在于，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1～7中的任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115544116 A 3

专利 提数任务时长预测模型的训练方法及装置、介质、设备

专利提数任务时长预测模型的训练方法及装置、介质、设备