(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211338874.9
(22)申请日 2022.10.28
(71)申请人 广州华多网络科技有限公司
地址 511442 广东省广州市番禺区南村镇
万达广场B1栋24层
(72)发明人 叶朝鹏
(74)专利代理 机构 广州利能知识产权代理事务
所(普通合伙) 44673
专利代理师 王增鑫
(51)Int.Cl.
G06F 30/27(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 111/08(2020.01)G06F 111/04(2020.01)
(54)发明名称
神经网络模型训练方法及其装置、 设备、 介
质、 产品
(57)摘要
本申请涉及一种神经网络模型训练方法及
其装置、 设备、 介质、 产品, 所述方法包括: 确定待
监测的性能指标及训练轮数, 根据训练轮数随机
生成容忍轮数, 使容忍轮数成为 关联于所述训练
轮数的随机值; 按照训练轮数对神经网络模型执
行多轮训练, 在每轮训练中将神经网络模型的实
例训练至收敛, 获得相应的已收敛实例; 判断每
轮训练所得的已收敛实例的性能指标是否低于
历轮获得的已收敛实例的性能指标中的最高性
能指标, 当低于最高性能指标时, 统计持续低于
最高性能指标的持续总轮数; 当持续总轮数达到
所述容忍轮数时, 终止训练, 确定获得最高性能
指标的已收敛 实例为最佳 实例。 本申请可以自动
化地识别出多轮训练过程中的过拟合现象, 确保
最佳实例的有效性。
权利要求书2页 说明书13页 附图4页
CN 115495998 A
2022.12.20
CN 115495998 A
1.一种神经网络模型训练方法, 其特 征在于, 包括:
确定待监测的性能指标及训练轮数, 根据所述训练轮数随机生成容忍轮数, 使所述容
忍轮数成为关联于所述训练轮数的随机值;
按照所述训练轮数对神经网络模型执行多轮训练, 在每轮训练中将所述神经网络模型
的实例训练至收敛, 获得相应的已收敛实例;
判断每轮训练所得的已收敛实例的性能指标是否低于历轮获得的已收敛实例的性能
指标中的最高性能指标, 当低于所述最高性能指标时, 统计持续低于所述最高性能指标 的
持续总轮数;
当所述持续总轮数达到所述容忍轮数时, 终止训练过程, 确定获得所述最高性能指标
的已收敛实例为 最佳实例。
2.根据权利要求1所述的神经网络模型训练方法, 其特征在于, 确定待监测的性 能指标
及训练轮数之前, 包括:
配置所述神经网络模型, 使其包含至少一个特征表示组件, 所述特征表示组件包括神
经网络层和失活层, 所述神经网络层用于提取被处理信息中的深层特征信息, 所述失活层
用于随机 丢弃所述深层特 征信息中的部分特 征;
将所述神经网络层所采用的激活函数配置为高斯 误差线性单 元;
将所述失活层所采用的用于控制丢弃特征数量的丢弃概率设置为与随机概率值的自
然常数幂相关联。
3.根据权利要求1所述的神经网络模型训练方法, 其特征在于, 根据所述训练轮数随机
生成容忍轮数, 使所述 容忍轮数成为关联于所述训练轮数的随机值, 包括:
基于特定比例与所述训练轮数的乘积确定标定轮数, 所述特定比例为70%至90%范围
内的定值;
以自然常数为底, 以随机概率值为指数, 确定所述标定轮数的归一化权重所述随机概
率值的数值区间为( ‑∞,0];
应用归一 化权重对所述标定轮数加权获得归一 化后的结果数值;
将所述结果数值取整作为所述 容忍轮数。
4.根据权利要求1所述的神经网络模型训练方法, 其特征在于, 判断每轮训练所得的已
收敛实例的性能指标是否低于历轮获得的已收敛实例的性能指标中的最高性能指标, 包
括:
当每轮训练所得的已收敛实例的性能指标不低于历轮获得的已收敛实例的性能指标
中的最高性能指标时, 重 置所述持续总轮数为 其最低值。
5.根据权利要求1所述的神经网络模型训练方法, 其特征在于, 当所述持续总轮数达到
所述容忍轮数时, 终止训练过程之前, 包括:
判断所述容忍轮数是否大于所述训练轮数与已训练轮数之间的差值, 当大于所述差值
时, 增大所述训练轮数使其大于所述 容忍轮数。
6.根据权利要求1至5中任意一项所述的神经网络模型训练方法, 其特征在于, 按照所
述训练轮数对神经网络模型 执行多轮训练, 包括:
基于网络架构搜索算法构造所述神经网络模型在每 轮训练中的实例。
7.根据权利要求1至5中任意一项所述的神经网络模型训练方法, 其特征在于, 确定获权 利 要 求 书 1/2 页
2
CN 115495998 A
2得所述最高性能指标的已收敛实例为 最佳实例之后, 包括:
将所述最佳实例的权 重参数迁移到计算机设备中运行;
向所述计算机设备中的所述最佳实例输入待处理信 息, 获得所述最佳实例根据 所述待
处理信息进行推理后输出 的特征表示, 所述待处理信息包括图片, 所述最佳实例相对应的
神经网络模型为图像特 征提取模型。
8.一种神经网络模型训练装置, 其特 征在于, 包括:
初始化模块, 设置为确定待监测的性能指标及训练轮数, 根据所述训练轮数随机生成
容忍轮数, 使所述 容忍轮数成为关联于所述训练轮数的随机值;
训练执行模块, 设置为按照所述训练轮数对神经网络模型执行多轮训练, 在每轮训练
中将所述神经网络模型的实例训练至收敛, 获得相应的已收敛实例;
检测统计模块, 设置为判断每轮训练所得的已收敛实例的性能指标是否低于历轮获得
的已收敛实例的性能指标中的最高性能指标, 当低于所述最高性能指标时, 统计持续低于
所述最高性能指标的持续总轮数;
过程控制模块, 设置为当所述持续总轮数达到所述容忍轮数时, 终止训练过程, 确定获
得所述最高性能指标的已收敛实例为 最佳实例。
9.一种神经网络模型训练设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理
器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所
述的方法所包括的步骤。
10.一种非易失性可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有计算
机程序, 所述计算机程序被计算机调用运行时, 执行如权利要求1至7中任意一项所述的方
法所包括的步骤。权 利 要 求 书 2/2 页
3
CN 115495998 A
3
专利 神经网络模型训练方法及其装置、设备、介质、产品
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:08上传分享