(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211386085.2
(22)申请日 2022.11.07
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 张竞慧 翁财善 徐正佳 李剑歌
东方 罗军舟
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 叶倩
(51)Int.Cl.
G06F 9/50(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种异构GPU集群负载感知的显存重计算优
化方法及系统
(57)摘要
本发明公开了一种异构GPU集群负载感知的
显存重计算优化方法及系统, 针对异构GPU集群
环境下流水线训练显存需求, 刻画出其训练执行
过程中计算时间、 GPU显存总量、 显存占用等相应
指标, 并将其作为负载 感知的显存重计算优化方
法的输入, 建立显存重计算优 化模型,计算各GP U
上显存负载百分比, 确定所有阶段中显存负载最
高的阶段, 根据最小化显存开销算法进行重计算
优化, 保证各阶段负载均衡, 提升整体吞吐率, 本
发明提出最小化负载最高阶段显存开销算法与
平衡异构GP U各阶段开销算法, 减少异构GPU 集群
环境下流水线训练的显存占用, 同时最小化显存
优化开销, 更好 地支持大模型的训练。
权利要求书3页 说明书10页 附图4页
CN 115437795 A
2022.12.06
CN 115437795 A
1.一种异构GPU集群负载感知的显存重计算优化方法, 其特征在于:建立显存重计算优
化模型,计算各GPU上显存负载百分比, 确定所有阶段中显存负载最高的阶段, 根据最小化
显存开销算法进行重计算优化, 保证各阶段负载均衡。
2.如权利要求1所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在
于: 所述最小化显存开销算法具体为: 对于负载最高的阶段, 需要最小化显存计算 开销, 即
其中, L为神经网络层的集合; s为神经网络划分的阶段; compl为神经网络第 l 层的计
算时间;
为阶段s需要 储存的版本数;
令
表示checkpoint层的选择, 当
为0 时, 代表第
层被设置为checkpoint, 需要重
计算; 当
为1 时, 代表需要满足显存限制表第i 层不需要重计算,其中,
为阶段s的神
经网络层集 合, 即
所述显存限制为:
其中, s为神经网络划分的阶段;
为神经网络第l层的参数显存占用;
为神经网
络第l层的中间结果显存占用;
为阶段s需要储存的版本数;
为显存优化率;
表示
checkpoint层的选择。
3.如权利要求2所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在
于: 采用动态 规划中0−1背包的思想对最小化显存开销算法进 行求解, 将 显存限制定义为背
包容量, 每层所占用的显存定义为代 价, 重计算的开销定义为获利, 采用重计算开销的倒数
进行计算。
4.如权利要求3所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在
于: 所述负载均衡为各阶段重计算 开销与显存负载最高的阶段相等, 即
其中,
为各阶段重计算开销;
为显存负载最高的阶段重计算开销; S为神经
网络的划分阶段集 合; s为神经网络划分的阶段。
5.如权利要求4所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在
于: 所述各阶段重计算 开销与显存负载最高的阶段相等, 对于任意阶段s,
权 利 要 求 书 1/3 页
2
CN 115437795 A
2其中, s为神 经网络划分的阶段;
为神经网络第l层的参数显存占用;
为神经网
络第l层的中间结果显存占用;
为阶段s需要储存的版本数;
表示checkpoint层的
选择;
为显存负载最高的阶段重 计算开销;
当绝对值内的值大于等于 0时:
当绝对值内的值小于 0时:
。
6.如权利要求5所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在
于, 包括如下步骤:
S1: 建立深度神经网络的层次累积分布函数模型, 根据层次累积分布函数模型, 使用异
构GPU硬件环境执 行预训练过程, 刻画出神经网络在训练过程中的指标;
S2: 建立显存重计算优化模型, 以步骤S1中的指标及异构GPU集群中GPU间的网络拓扑
连接作为输入, 分析得到显存负载最高的阶段, 对所有阶段显存进行约束以及负载最高的
阶段显存进行约束, 保证各阶段负载均衡;
S3: 选择最佳重计算层, 使显存负载最 高的 GPU 阶段显存降低为原来的 d 倍, 并减少
重计算开销; 其他阶段选择重计算层, 在 满足总显存限制的前提下, 重计算开销与负载最高
的阶段平衡。
7.如权利要求6所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在
于: 所述步骤S1中指标至少包括各层的计算时间, 参数显存占用, 中间结果显存占用以及固
定阶段所使用的 GPU 的显存总量。
8.如权利要求7所述一种异构GPU集群负载感知的显存重计算优化方法, 其特征在于:
所述步骤S1中, 每一个阶段的显存占用
具体为
其中, s为神经网络划分的阶段;
为神经网络第l层的参数显存占用;
为神经网
络第l层的中间结果显存占用;
为阶段s需要 储存的版本数。
9.如权利要求6所述一种异构GPU集群负载感知的显存重计算优化方法, 其特征在于:
所述步骤S 3中, 显存使用率降低为原 来的 d 倍, 所有阶段都应满足显存占用小于等于显存
总量, 即:
权 利 要 求 书 2/3 页
3
CN 115437795 A
3
专利 一种异构GPU集群负载感知的显存重计算优化方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:54上传分享