说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211386085.2 (22)申请日 2022.11.07 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 张竞慧 翁财善 徐正佳 李剑歌  东方 罗军舟  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 叶倩 (51)Int.Cl. G06F 9/50(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种异构GPU集群负载感知的显存重计算优 化方法及系统 (57)摘要 本发明公开了一种异构GPU集群负载感知的 显存重计算优化方法及系统, 针对异构GPU集群 环境下流水线训练显存需求, 刻画出其训练执行 过程中计算时间、 GPU显存总量、 显存占用等相应 指标, 并将其作为负载 感知的显存重计算优化方 法的输入, 建立显存重计算优 化模型,计算各GP U 上显存负载百分比, 确定所有阶段中显存负载最 高的阶段, 根据最小化显存开销算法进行重计算 优化, 保证各阶段负载均衡, 提升整体吞吐率, 本 发明提出最小化负载最高阶段显存开销算法与 平衡异构GP U各阶段开销算法, 减少异构GPU 集群 环境下流水线训练的显存占用, 同时最小化显存 优化开销, 更好 地支持大模型的训练。 权利要求书3页 说明书10页 附图4页 CN 115437795 A 2022.12.06 CN 115437795 A 1.一种异构GPU集群负载感知的显存重计算优化方法, 其特征在于:建立显存重计算优 化模型,计算各GPU上显存负载百分比, 确定所有阶段中显存负载最高的阶段, 根据最小化 显存开销算法进行重计算优化, 保证各阶段负载均衡。 2.如权利要求1所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在 于: 所述最小化显存开销算法具体为: 对于负载最高的阶段, 需要最小化显存计算 开销, 即 其中, L为神经网络层的集合; s为神经网络划分的阶段; compl为神经网络第  l 层的计 算时间; 为阶段s需要 储存的版本数; 令 表示checkpoint层的选择, 当 为0 时, 代表第 层被设置为checkpoint, 需要重 计算; 当 为1 时, 代表需要满足显存限制表第i  层不需要重计算,其中,  为阶段s的神 经网络层集 合, 即 所述显存限制为: 其中, s为神经网络划分的阶段; 为神经网络第l层的参数显存占用; 为神经网 络第l层的中间结果显存占用; 为阶段s需要储存的版本数; 为显存优化率; 表示 checkpoint层的选择。 3.如权利要求2所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在 于: 采用动态 规划中0−1背包的思想对最小化显存开销算法进 行求解, 将 显存限制定义为背 包容量, 每层所占用的显存定义为代 价, 重计算的开销定义为获利, 采用重计算开销的倒数 进行计算。 4.如权利要求3所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在 于: 所述负载均衡为各阶段重计算 开销与显存负载最高的阶段相等, 即 其中, 为各阶段重计算开销; 为显存负载最高的阶段重计算开销; S为神经 网络的划分阶段集 合; s为神经网络划分的阶段。 5.如权利要求4所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在 于: 所述各阶段重计算 开销与显存负载最高的阶段相等, 对于任意阶段s, 权 利 要 求 书 1/3 页 2 CN 115437795 A 2其中, s为神 经网络划分的阶段; 为神经网络第l层的参数显存占用; 为神经网 络第l层的中间结果显存占用; 为阶段s需要储存的版本数; 表示checkpoint层的 选择; 为显存负载最高的阶段重 计算开销; 当绝对值内的值大于等于  0时: 当绝对值内的值小于  0时: 。 6.如权利要求5所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在 于, 包括如下步骤: S1: 建立深度神经网络的层次累积分布函数模型, 根据层次累积分布函数模型, 使用异 构GPU硬件环境执 行预训练过程, 刻画出神经网络在训练过程中的指标; S2: 建立显存重计算优化模型, 以步骤S1中的指标及异构GPU集群中GPU间的网络拓扑 连接作为输入, 分析得到显存负载最高的阶段, 对所有阶段显存进行约束以及负载最高的 阶段显存进行约束, 保证各阶段负载均衡; S3: 选择最佳重计算层, 使显存负载最 高的 GPU 阶段显存降低为原来的  d 倍, 并减少 重计算开销; 其他阶段选择重计算层, 在 满足总显存限制的前提下, 重计算开销与负载最高 的阶段平衡。 7.如权利要求6所述的一种异构GPU集群负载感知的显存重计算优化方法, 其特征在 于: 所述步骤S1中指标至少包括各层的计算时间, 参数显存占用, 中间结果显存占用以及固 定阶段所使用的  GPU 的显存总量。 8.如权利要求7所述一种异构GPU集群负载感知的显存重计算优化方法, 其特征在于: 所述步骤S1中, 每一个阶段的显存占用  具体为 其中, s为神经网络划分的阶段; 为神经网络第l层的参数显存占用; 为神经网 络第l层的中间结果显存占用; 为阶段s需要 储存的版本数。 9.如权利要求6所述一种异构GPU集群负载感知的显存重计算优化方法, 其特征在于: 所述步骤S 3中, 显存使用率降低为原 来的 d 倍, 所有阶段都应满足显存占用小于等于显存 总量, 即: 权 利 要 求 书 2/3 页 3 CN 115437795 A 3

PDF文档 专利 一种异构GPU集群负载感知的显存重计算优化方法及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种异构GPU集群负载感知的显存重计算优化方法及系统 第 1 页 专利 一种异构GPU集群负载感知的显存重计算优化方法及系统 第 2 页 专利 一种异构GPU集群负载感知的显存重计算优化方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。