(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211373207.4
(22)申请日 2022.11.03
(71)申请人 上海人工智能创新中心
地址 200000 上海市徐汇区云锦路701号
37、 38层
(72)发明人 李天健 林达华
(74)专利代理 机构 北京市诚辉律师事务所
11430
专利代理师 成丹 耿慧敏
(51)Int.Cl.
G06N 5/04(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种针对 超大模型的分布式推理部署系统
(57)摘要
本发明涉及一种针对超大模型的分布式推
理部署系统, 所述系统基于中间表 述的通用模型
构建计算图, 将计算图拆分为计算子图, 实现对
大多数超大模 型支持。 通过最快推理速度策略或
最大吞吐率策略, 实现超大模型需满足的性能需
求部署。 通过将计算子图与推理引擎执行后端一
起打包成Package发送到相应的计算节点, 再由
运行时模块负责解析运行时Package信息, 实现
兼容多个推理引擎执行后端。 而为了进一步提升
通用性, 在解析模型时, 采用算子等效拆分方式
实现算子并行, 实现算子并行与后端执行无关,
从而实现任务解析与后端执行解耦。 在应用分布
式推理系统时, 通过配置好的动态分组模块, 可
有效提升 推理部署服 务的计算资源效率。
权利要求书2页 说明书7页 附图2页
CN 115511086 A
2022.12.23
CN 115511086 A
1.一种针对超大模型的分布式推理部署系统, 其特征在于, 所述系统包括任务分配模
块、 并行管理模块、 运行时模块, 以实现超大模型的分布式推理系统的部署; 其中:
任务分配模块, 被配置用于将超大模型解析成中间表述, 基于 中间表述构建计算图, 将
计算图拆分为计算子图, 建立计算子图与计算节点的映射关系, 并将任务分配信息打包成
Package;
并行管理模块, 被配置基于计算子 图和计算节点的映射关系, 向所有计算节点发送对
应的Packa ge, 并且构建计算节点之间的通信关系;
运行时模块, 被配置用于在接收Pack age的计算节点上对Pack age进行解析并执行对应
的任务。
2.根据权利要求1所述的系统, 其特征在于, 建立计算子 图与计算节点的映射关系, 所
采用的策略包括采用最快推理速度策略或最大 吞吐率策略;
所述最快推理速度策略: 使用G_sub表述计算子图, 使用commj表示第j个计算节点的时
间, 则通过使下述公式取 得最小值时, 确定计算子图与计算节点的对应关系:
式中: t(G_subi)表示计算子图的执行时间, n表示计算子图的数目, k表示通信节点的数
目;
所述最大吞吐率策略, 使得计算子 图对应的推理任务在执行时, 采用流水线的方式执
行。
3.根据权利要求1所述的系统, 其特征在于, 所述系统还包括执行模块, 用于对多种推
理引擎后端 进行管理;
所述计算子图保存原始的模型格式, 所述任务分配模块在打包成Package时, 将计算子
图对应的推理引擎后端一起打包, 以使Package在解析后, 能够使计算节 点上的执行模块使
用相应的推理引擎后端对计算子图进行解析并完成计算。
4.根据权利要求1所述的系统, 其特征在于, 所述并行管理模块能够实现算子拆分; 所
述算子拆分, 为将模型中的某个算子等效拆分到不同的计算节点进行计算, 并通过插入一
个合并算子, 以实现数据整合。
5.根据权利要求1所述的系统, 其特征在于, 所述将计算图拆分为计算子 图, 为将模型
解析得到的计算图根据计算节点信息进行拆分, 所述计算节点信息包括: 计算节点硬件资
源、 各节点设备线程、 计算节点数目。
6.根据权利要求1所述的系统, 其特征在于, 所述系统还包括动态分组模块; 所述动态
分组模块, 被 配置为将多个输入进行维度统一, 以实现多Batc h形式。
7.根据权利要求6所述的系统, 其特征在于, 所述将多个输入进行维度统一通过
Padding操作实现, 所述Pad ding操作寻找能够覆盖所有输入维度大小的最小维度。
8.根据权利要求6所述的系统, 其特征在于, 所述系统还包括任务执行模块; 所述系统
根据任务分配的结果, 在对应的计算节点上调用任务执行模块; 在计算节点完成任务执行
后, 所述系统整合任务执 行模型的计算结果, 根据动态分组信息, 完成输出的对应分配。
9.一种计算机可读存储介质, 其特征在于, 其上存储有程序, 该程序被处理器执行时,权 利 要 求 书 1/2 页
2
CN 115511086 A
2实现权利要求1 ‑8中任一项所述的针对 超大模型的分布式推理部署系统。
10.一种针对超大模型的分布式推理部署系统的执行方法, 其特征在于, 所述方法包括
下述步骤:
S100、 将超大模型解析成中间表述, 基于中间表述构 建计算图, 将计算图拆分为计算子
图, 建立计算子图与计算节点的映射关系, 并将任务分配信息打包成Packa ge;
S200、 基于计算子图和计算节点的映射关系, 向所有计算节点发送对应的Package, 并
且构建计算节点之间的通信关系;
S300、 在接收Packa ge的计算节点上, 对Packa ge进行解析并执 行对应的任务。权 利 要 求 书 2/2 页
3
CN 115511086 A
3
专利 一种针对超大模型的分布式推理部署系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:57上传分享