说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211373039.9 (22)申请日 2022.11.04 (71)申请人 中邮消费金融有限公司 地址 510000 广东省广州市南沙区海 滨路 171号南沙金融大厦1 1楼1101之一J3 0 (72)发明人 韩柳 胡雪枫 朱威 郑宇晟  唐镇坤 黄文辉  (74)专利代理 机构 广州微斗专利代理有限公司 44390 专利代理师 朱武 (51)Int.Cl. G06Q 30/02(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 40/02(2012.01) (54)发明名称 一种基于强化学习的金融模型知识蒸馏方 法及装置 (57)摘要 本发明涉及一种基于强化学习的金融模型 知识蒸馏方法及装置, 包括如下步骤: S1: 进行A 企业和B企业的模型设计, 对A企业的学生模型进 行预训练蒸馏并初始化; S2: 将预训练蒸馏并初 始化后的学生模型搭建在B企业的服务器中, 并 再次进行蒸馏训练; S3: 通过A企业的教师推理模 型进行推理预测, 并通过推理结果对B企业的学 生模型进行数据增强。 本发明提供的基于强化学 习的金融模 型知识蒸馏方法及装置, 实现了跨机 构的联合建模 方案, 利用知识蒸馏中的深度学习 模型的弱可解释性, 达到保护数据隐私的目的, 同时可在不泄露信贷公司风控策略的情况下, 获 取符合信贷公司 所需要的引流机构中高质量高 响应率的客群, 节省营销获客成本 。 权利要求书2页 说明书5页 附图2页 CN 115423540 A 2022.12.02 CN 115423540 A 1.一种基于强化学习的金融模型知识蒸馏方法, 其特 征在于, 包括如下步骤: S1: 进行A企业和B企业的模型设计, 对A企业的学生模型进行 预训练蒸馏并初始化; S2: 将预训练蒸馏并初始化后的学生模型搭建在B企业的服务器 中, 并再次进行蒸馏训 练; S3: 通过A企业的教师推理模型进行推理预测, 并通过推理结果对B企业的学生模型进 行数据增强。 2.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S1中A企业的模 型设计具体包括: 学生模型和教师模型, 其中教师模型采用BERT模型, 并设计为n层transformer, 教师模 型的transformer通过将上一层的隐变量作为输入, 并经 过多头注意力输出相应的隐变量。 3.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S1中B企业的模 型设计具体包括: 进行B企业的多头教师模型设计, 其教师模型只作为本地学生模型蒸馏使用, 具体包 括: 风险评分类的教师模型。 4.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S1中进行A企业 的模型设计具体还 包括: 对A企业的行为数据进行清洗, 其中, 行为数据具体包括: 用户行为数据和本地标签数 据, 当用户行为数据过大时, 则需要进行统计级的特征工程, 其具体包括: 用户的点击次数 和页面元 素停留时间。 5.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S3的具体步骤 为: 通过A企业的教师推理模型进行推理预测, 并采用hardlabel的方式对B企业的学生模 型进行数据增强。 6.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S2的具体步骤包 括: 将预训练蒸馏并初始化后的学生模型搭建在B企业的服务器中, 并通过A企业和B企业 的教师模型所蒸馏的知识对B企业的学生模型进行蒸馏训练, 训练后的B企业的学生模型, 将部署在A企业, 并作为兼顾B企业企业批核率和广告响应率的预测推理。 7.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S2中再次进行蒸 馏训练的具体步骤为: 基于Actor ‑Critic方法, 将B企业的学生模型作为Actor, 并针对不同场景来实现对所 产生的行为序列的试探, 其中, 行为序列包括金融风险类策略和营销拉新类策略。 8.如权利要求7所述的金融模型知识蒸馏方法, 其特征在于, 所述金融风险类策略和营 销拉新类策略具体包括: 金融风险类策略: 降额、 提 额、 拒绝和通过风险干预 策略; 营销拉新类策略: 设计成发券和活动免息营销策略; 其中, 金融风险类策略用于刺激B企业本地风控环境, 并对status进行收集; 营销拉新 类策略用于发送给A企业, 并由其负责对status进行收集。 9.如权利要求7所述的金融模型知识蒸馏方法, 其特征在于, 将A企业的教师推理模型权 利 要 求 书 1/2 页 2 CN 115423540 A 2和B企业的教师模型作为Critic, 通过Critic基于Actor的行为作出行为得分, 并根据得到 的分数进行 预设值的选取, 根据预设值的分数进行Critic和Actor的同时更新。 10.一种基于强化学习的金融模型知识蒸馏装置, 其特 征在于, 包括: 配置模块: 用于进行A企业和B企业的模型设计; 训练模块: 对A企业的学生模型进行预训练蒸馏并初始化, 将预训练蒸馏并初始化后的 学生模型 搭建在B企业的服 务器中, 并再次进行蒸馏训练; 数据增强模块: 通过A企业的教师推理模型进行推理预测, 并通过推理结果对B企业的 学生模型进行 数据增强。权 利 要 求 书 2/2 页 3 CN 115423540 A 3

PDF文档 专利 一种基于强化学习的金融模型知识蒸馏方法及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的金融模型知识蒸馏方法及装置 第 1 页 专利 一种基于强化学习的金融模型知识蒸馏方法及装置 第 2 页 专利 一种基于强化学习的金融模型知识蒸馏方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。