(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211373039.9
(22)申请日 2022.11.04
(71)申请人 中邮消费金融有限公司
地址 510000 广东省广州市南沙区海 滨路
171号南沙金融大厦1 1楼1101之一J3 0
(72)发明人 韩柳 胡雪枫 朱威 郑宇晟
唐镇坤 黄文辉
(74)专利代理 机构 广州微斗专利代理有限公司
44390
专利代理师 朱武
(51)Int.Cl.
G06Q 30/02(2012.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 40/02(2012.01)
(54)发明名称
一种基于强化学习的金融模型知识蒸馏方
法及装置
(57)摘要
本发明涉及一种基于强化学习的金融模型
知识蒸馏方法及装置, 包括如下步骤: S1: 进行A
企业和B企业的模型设计, 对A企业的学生模型进
行预训练蒸馏并初始化; S2: 将预训练蒸馏并初
始化后的学生模型搭建在B企业的服务器中, 并
再次进行蒸馏训练; S3: 通过A企业的教师推理模
型进行推理预测, 并通过推理结果对B企业的学
生模型进行数据增强。 本发明提供的基于强化学
习的金融模 型知识蒸馏方法及装置, 实现了跨机
构的联合建模 方案, 利用知识蒸馏中的深度学习
模型的弱可解释性, 达到保护数据隐私的目的,
同时可在不泄露信贷公司风控策略的情况下, 获
取符合信贷公司 所需要的引流机构中高质量高
响应率的客群, 节省营销获客成本 。
权利要求书2页 说明书5页 附图2页
CN 115423540 A
2022.12.02
CN 115423540 A
1.一种基于强化学习的金融模型知识蒸馏方法, 其特 征在于, 包括如下步骤:
S1: 进行A企业和B企业的模型设计, 对A企业的学生模型进行 预训练蒸馏并初始化;
S2: 将预训练蒸馏并初始化后的学生模型搭建在B企业的服务器 中, 并再次进行蒸馏训
练;
S3: 通过A企业的教师推理模型进行推理预测, 并通过推理结果对B企业的学生模型进
行数据增强。
2.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S1中A企业的模
型设计具体包括:
学生模型和教师模型, 其中教师模型采用BERT模型, 并设计为n层transformer, 教师模
型的transformer通过将上一层的隐变量作为输入, 并经 过多头注意力输出相应的隐变量。
3.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S1中B企业的模
型设计具体包括:
进行B企业的多头教师模型设计, 其教师模型只作为本地学生模型蒸馏使用, 具体包
括: 风险评分类的教师模型。
4.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S1中进行A企业
的模型设计具体还 包括:
对A企业的行为数据进行清洗, 其中, 行为数据具体包括: 用户行为数据和本地标签数
据, 当用户行为数据过大时, 则需要进行统计级的特征工程, 其具体包括: 用户的点击次数
和页面元 素停留时间。
5.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S3的具体步骤
为:
通过A企业的教师推理模型进行推理预测, 并采用hardlabel的方式对B企业的学生模
型进行数据增强。
6.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S2的具体步骤包
括:
将预训练蒸馏并初始化后的学生模型搭建在B企业的服务器中, 并通过A企业和B企业
的教师模型所蒸馏的知识对B企业的学生模型进行蒸馏训练, 训练后的B企业的学生模型,
将部署在A企业, 并作为兼顾B企业企业批核率和广告响应率的预测推理。
7.如权利要求1所述的金融模型知识蒸馏方法, 其特征在于, 所述步骤S2中再次进行蒸
馏训练的具体步骤为:
基于Actor ‑Critic方法, 将B企业的学生模型作为Actor, 并针对不同场景来实现对所
产生的行为序列的试探, 其中, 行为序列包括金融风险类策略和营销拉新类策略。
8.如权利要求7所述的金融模型知识蒸馏方法, 其特征在于, 所述金融风险类策略和营
销拉新类策略具体包括:
金融风险类策略: 降额、 提 额、 拒绝和通过风险干预 策略;
营销拉新类策略: 设计成发券和活动免息营销策略;
其中, 金融风险类策略用于刺激B企业本地风控环境, 并对status进行收集; 营销拉新
类策略用于发送给A企业, 并由其负责对status进行收集。
9.如权利要求7所述的金融模型知识蒸馏方法, 其特征在于, 将A企业的教师推理模型权 利 要 求 书 1/2 页
2
CN 115423540 A
2和B企业的教师模型作为Critic, 通过Critic基于Actor的行为作出行为得分, 并根据得到
的分数进行 预设值的选取, 根据预设值的分数进行Critic和Actor的同时更新。
10.一种基于强化学习的金融模型知识蒸馏装置, 其特 征在于, 包括:
配置模块: 用于进行A企业和B企业的模型设计;
训练模块: 对A企业的学生模型进行预训练蒸馏并初始化, 将预训练蒸馏并初始化后的
学生模型 搭建在B企业的服 务器中, 并再次进行蒸馏训练;
数据增强模块: 通过A企业的教师推理模型进行推理预测, 并通过推理结果对B企业的
学生模型进行 数据增强。权 利 要 求 书 2/2 页
3
CN 115423540 A
3
专利 一种基于强化学习的金融模型知识蒸馏方法及装置
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:55上传分享