专利 一种针对超大模型的分布式推理部署系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211373207.4 (22)申请日 2022.11.03 (71)申请人上海人工智能创新中心地址 200000 上海市徐汇区云锦路701号 37、 38层 (72)发明人李天健　林达华　 (74)专利代理机构北京市诚辉律师事务所 11430 专利代理师成丹　耿慧敏 (51)Int.Cl. G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种针对超大模型的分布式推理部署系统 (57)摘要本发明涉及一种针对超大模型的分布式推理部署系统，所述系统基于中间表述的通用模型构建计算图，将计算图拆分为计算子图，实现对大多数超大模型支持。通过最快推理速度策略或最大吞吐率策略，实现超大模型需满足的性能需求部署。通过将计算子图与推理引擎执行后端一起打包成Package发送到相应的计算节点，再由运行时模块负责解析运行时Package信息，实现兼容多个推理引擎执行后端。而为了进一步提升通用性，在解析模型时，采用算子等效拆分方式实现算子并行，实现算子并行与后端执行无关，从而实现任务解析与后端执行解耦。在应用分布式推理系统时，通过配置好的动态分组模块，可有效提升推理部署服务的计算资源效率。权利要求书2页说明书7页附图2页 CN 115511086 A 2022.12.23 CN 115511086 A 1.一种针对超大模型的分布式推理部署系统，其特征在于，所述系统包括任务分配模块、并行管理模块、运行时模块，以实现超大模型的分布式推理系统的部署；其中：任务分配模块，被配置用于将超大模型解析成中间表述，基于中间表述构建计算图，将计算图拆分为计算子图，建立计算子图与计算节点的映射关系，并将任务分配信息打包成 Package；并行管理模块，被配置基于计算子图和计算节点的映射关系，向所有计算节点发送对应的Packa ge，并且构建计算节点之间的通信关系；运行时模块，被配置用于在接收Pack age的计算节点上对Pack age进行解析并执行对应的任务。 2.根据权利要求1所述的系统，其特征在于，建立计算子图与计算节点的映射关系，所采用的策略包括采用最快推理速度策略或最大吞吐率策略；所述最快推理速度策略：使用G_sub表述计算子图，使用commj表示第j个计算节点的时间，则通过使下述公式取得最小值时，确定计算子图与计算节点的对应关系：式中： t(G_subi)表示计算子图的执行时间， n表示计算子图的数目， k表示通信节点的数目；所述最大吞吐率策略，使得计算子图对应的推理任务在执行时，采用流水线的方式执行。 3.根据权利要求1所述的系统，其特征在于，所述系统还包括执行模块，用于对多种推理引擎后端进行管理；所述计算子图保存原始的模型格式，所述任务分配模块在打包成Package时，将计算子图对应的推理引擎后端一起打包，以使Package在解析后，能够使计算节点上的执行模块使用相应的推理引擎后端对计算子图进行解析并完成计算。 4.根据权利要求1所述的系统，其特征在于，所述并行管理模块能够实现算子拆分；所述算子拆分，为将模型中的某个算子等效拆分到不同的计算节点进行计算，并通过插入一个合并算子，以实现数据整合。 5.根据权利要求1所述的系统，其特征在于，所述将计算图拆分为计算子图，为将模型解析得到的计算图根据计算节点信息进行拆分，所述计算节点信息包括：计算节点硬件资源、各节点设备线程、计算节点数目。 6.根据权利要求1所述的系统，其特征在于，所述系统还包括动态分组模块；所述动态分组模块，被配置为将多个输入进行维度统一，以实现多Batc h形式。 7.根据权利要求6所述的系统，其特征在于，所述将多个输入进行维度统一通过 Padding操作实现，所述Pad ding操作寻找能够覆盖所有输入维度大小的最小维度。 8.根据权利要求6所述的系统，其特征在于，所述系统还包括任务执行模块；所述系统根据任务分配的结果，在对应的计算节点上调用任务执行模块；在计算节点完成任务执行后，所述系统整合任务执行模型的计算结果，根据动态分组信息，完成输出的对应分配。 9.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，权　利　要　求　书 1/2 页 2 CN 115511086 A 2实现权利要求1 ‑8中任一项所述的针对超大模型的分布式推理部署系统。 10.一种针对超大模型的分布式推理部署系统的执行方法，其特征在于，所述方法包括下述步骤： S100、将超大模型解析成中间表述，基于中间表述构建计算图，将计算图拆分为计算子图，建立计算子图与计算节点的映射关系，并将任务分配信息打包成Packa ge； S200、基于计算子图和计算节点的映射关系，向所有计算节点发送对应的Package，并且构建计算节点之间的通信关系； S300、在接收Packa ge的计算节点上，对Packa ge进行解析并执行对应的任务。权　利　要　求　书 2/2 页 3 CN 115511086 A 3

专利 一种针对超大模型的分布式推理部署系统

专利一种针对超大模型的分布式推理部署系统