(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211376821.6
(22)申请日 2022.11.04
(71)申请人 北京大学
地址 100871 北京市海淀区颐和园路5号
(72)发明人 杨超 陈畅 李敏
(74)专利代理 机构 北京华专卓 海知识产权代理
事务所(普通 合伙) 11664
专利代理师 王一
(51)Int.Cl.
G06F 9/50(2006.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
H04L 41/12(2022.01)
H04L 67/10(2022.01)
(54)发明名称
MoE模型训练方法、 装置、 设备以及存 储介质
(57)摘要
本公开的实施例提供了一种MoE模 型训练方
法、 装置、 设备以及存储介质, 涉及神经网络技术
领域。 该方法包括: 对MoE模型训练所用的计算 设
备网络进行拓扑探测, 确定计算 设备网络的拓扑
类型; 探测计算设备网络中任意两个计算设备之
间的通信开销和传输开销, 生 成计算设备网络的
通信性能矩阵和传输性能矩阵; 根据拓扑类型对
应的求解策略、 通信性能矩阵和传输性能矩阵,
求解各计算 设备的数据分发模式; 根据各计算设
备的数据分发模式调整MoE模型的总损失函数;
利用计算设备网络对调整后的MoE模型进行训
练。 以此方式, 可 以根据计算设备网络的拓扑结
构求解各计算设备高效的数据分发模式, 并基于
此实现分发均衡, 提升模型训练性能。
权利要求书2页 说明书11页 附图2页
CN 115421929 A
2022.12.02
CN 115421929 A
1.一种MoE模型训练方法, 其特 征在于, 所述方法包括:
对MoE模型训练所用的计算设备网络进行拓扑探测, 确定所述计算设备网络的拓扑类
型;
探测所述计算设备网络 中任意两个计算设备之间的通信开销和传输开销, 生成所述计
算设备网络的通信性能矩阵和传输性能矩阵;
根据所述拓扑类型对应的求解策略、 所述通信性能矩阵和所述传输性能矩阵, 求解所
述计算设备网络中各计算设备的数据分发模式;
根据各计算设备的数据分发模式调整所述MoE模型的总损失函数;
利用所述计算设备网络对调整总损失函数后的MoE模型进行训练。
2.根据权利要求1所述的方法, 其特征在于, 所述拓扑类型为同构网络拓扑、 环状网络
拓扑、 对称树状网络 拓扑或者非对称树状网络 拓扑。
3.根据权利要求1所述的方法, 其特征在于, 所述根据所述拓扑类型对应的求解策略、
所述通信性能矩阵和所述传输性能矩阵, 求解所述计算设备网络中各计算设备的数据分发
模式, 包括:
若所述拓扑类型为同构网络拓扑, 则根据预设的数据分发优化问题、 分发平衡限制条
件、 负载均衡限制条件、 所述通信性能矩阵和所述传输性能矩阵, 求解所述计算设备网络中
各计算设备的数据分发模式。
4.根据权利要求1所述的方法, 其特征在于, 所述根据所述拓扑类型对应的求解策略、
所述通信性能矩阵和所述传输性能矩阵, 求解所述计算设备网络中各计算设备的数据分发
模式, 包括:
若所述拓扑类型为环状网络拓扑或者对称树状网络拓扑, 则对于所述计算设备网络中
任意一个目标计算设备, 采取以下步骤:
将所述计算设备网络中除所述目标计算设备之外的计算设备按照拓扑层级划分为多
个群组;
根据所述通信性能矩阵计算所述目标计算设备对应的多个群组通信开销平均值, 其
中, 所述群组通信开销平均值为所述目标计算设备与群组中各计算设备之 间的通信开销的
平均值;
根据所述传输性能矩阵计算所述目标计算设备对应的多个群组传输开销平均值, 其
中, 所述群组传输开销平均值为所述目标计算设备与群组中各计算设备之 间的传输开销的
平均值;
利用各目标计算设备对应的多个群组通信开销平均值更新所述通信性能矩阵, 其中,
更新后的通信性能矩阵中所述目标计算设备与群组中各计算设备之间的通信开销皆为群
组通信开销平均值;
利用各目标计算设备对应的多个群组传输开销平均值更新所述传输性能矩阵, 其中,
更新后的传输性能矩阵中所述目标计算设备与群组中各计算设备之间的传输开销皆为群
组传输开销平均值;
根据预设的数据分发优化问题、 分发平衡限制条件、 负载均衡限制条件、 更新后的通信
性能矩阵和更新后的传输性能矩阵, 求解所述计算设备网络中各计算设备的数据分发模
式。权 利 要 求 书 1/2 页
2
CN 115421929 A
25.根据权利要求1所述的方法, 其特征在于, 所述根据所述拓扑类型对应的求解策略、
所述通信性能矩阵和所述传输性能矩阵, 求解所述计算设备网络中各计算设备的数据分发
模式, 包括:
若所述拓扑类型为非对称树状网络拓扑, 则将所述计算设备网络由非对称树状网络拓
扑转换为对称树状网络拓扑, 并根据对称树状网络拓扑对应的求解策略、 所述通信性能矩
阵和所述传输性能矩阵, 求 解所述计算设备网络中各计算设备的数据分发模式。
6.根据权利要求1所述的方法, 其特征在于, 所述根据各计算设备的数据分发模式调整
所述MoE模型的总损失函数, 包括:
根据各计算设备的数据分发模式, 设置各计算设备对应的拓扑感知损 失函数, 并添加
至所述MoE模型的总损失函数中。
7.根据权利要求6所述的方法, 其特征在于, 所述拓扑感知损 失函数中存在惩罚系数,
所述惩罚系数为对应数据分发模式的倒数归一 化结果。
8.一种MoE模型训练装置, 其特 征在于, 所述装置包括:
探测模块, 用于对MoE模型训练所用的计算设备网络进行拓扑探测, 确定所述计算设备
网络的拓扑类型;
所述探测模块, 还用于探测所述计算设备网络 中任意两个计算设备之间的通信开销和
传输开销, 生成所述计算设备网络的通信性能矩阵和传输性能矩阵;
求解模块, 用于根据所述拓扑类型对应的求解策略、 所述通信性能矩阵和所述传输性
能矩阵, 求 解所述计算设备网络中各计算设备的数据分发模式;
调整模块, 用于根据各计算设备的数据分发模式调整所述MoE模型的总损失函数;
训练模块, 用于利用所述计算设备网络对调整总损失函数后的MoE模型进行训练。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质, 其特征在于, 所述计算机指
令用于使计算机执 行权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115421929 A
3
专利 MoE模型训练方法、装置、设备以及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:56上传分享