专利 一种聚类联邦学习方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210809648.8 (22)申请日 2022.07.11 (71)申请人河南大学地址 475001 河南省开封市顺河区明伦街 85号 (72)发明人刘颜红　常黎明　徐恕贞　何欣　 (74)专利代理机构郑州大通专利商标代理有限公司 41111 专利代理师刘莹莹 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 21/62(2013.01) G06F 21/60(2013.01) G06F 16/9536(2019.01)G06Q 30/02(2012.01) (54)发明名称一种聚类联邦学习方法及装置 (57)摘要本发明提供一种聚类联邦学习方法及装置。该方法包括：步骤1：获取客户端的本地数据分布的特征向量；所述特征向量是在客户端上使用 Deep Sets模型对本地数据分布进行特征提取得到的；步骤2：使用K ‑Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类，以便将数据分布相似的客户端分入至相同组；步骤3：为每个分组设定对应的聚簇标识，不同分组对应不同的聚簇标识，相同组内的客户端具有相同的聚簇标识；步骤4：根据客户端的聚簇标识对客户端进行调度，使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。权利要求书1页说明书6页附图5页 CN 115169582 A 2022.10.11 CN 115169582 A 1.一种聚类联邦学习方法，其特征在于，包括：步骤1：获取客户端的本地数据分布的特征向量；所述特征向量是在客户端上使用Deep Sets模型对本地数据分布进行特征提取得到的；步骤2：使用K ‑Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类，以便将数据分布相似的客户端分入至相同组；步骤3：为每个分组设定对应的聚簇标识，不同分组对应不同的聚簇标识，相同组内的客户端具有相同的聚簇标识；步骤4：根据客户端的聚簇标识对客户端进行调度，使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。 2.根据权利要求1所述的一种聚类联邦学习方法，其特征在于，步骤4中，具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型的过程中使用差分隐私方式保护客户端上的本地数据。 3.根据权利要求1所述的一种聚类联邦学习方法，其特征在于，步骤2中，所述K ‑Means 聚类算法采用欧几里得距离作为任意两个客户端的本地数据分布的特征向量之间的距离。 4.一种聚类联邦学习装置，包括：客户端和服务器端；其特征在于，在所述客户端上，设置有特征提取模块；在所述服务器端上，设置有聚类模块和调度模块；所述特征提取模块，用于使用Deep Sets模型对本地数据分布进行特征提取得到本地数据分布的特征向量；所述聚类模块，用于使用K ‑Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类，以便将数据分布相似的客户端分入至相同组；以及为每个分组设定对应的聚簇标识，不同分组对应不同的聚簇标识，相同组内的客户端具有相同的聚簇标识；所述调度模块，用于根据客户端的聚簇标识对客户端进行调度，使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。 5.根据权利要求4所述的一种聚类联邦学习装置，其特征在于，在所述调度模块中，具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型的过程中使用差分隐私方式保护客户端上的本地数据。 6.根据权利要求4所述的一种聚类联邦学习装置，其特征在于，在所述聚类模块中，所述K‑Means聚类算法采用欧几里得距离作为任意两个客户端的本地数据分布的特征向量之间的距离。权　利　要　求　书 1/1 页 2 CN 115169582 A 2一种聚类联邦学习方法及装置技术领域 [0001]本发明涉及人工智能技术领域，尤其涉及一种聚类联邦学习方法及装置。背景技术 [0002]联邦学习是一个新兴的人工智能技术，因其能有效帮助多个机构在满足用户隐私保护、数据安全的要求下，进行数据使用和机器学习建模，逐渐得到越来越多的应用。 [0003]在联邦学习过程中，由于参与训练的各客户端的数据虽独立分布但不服从同一采样方法(Non ‑IID)，因此联邦学习的一大挑战就是由于数据分布的异构造成模型精度的严重下降。发明内容 [0004]为了解决由于数据分布的异构导致的模型精度下降的问题，本发明提供一种聚类联邦学习方法及装置。 [0005]一方面，本发明提供一种聚类联邦学习方法，包括： [0006]步骤1：获取客户端的本地数据分布的特征向量；所述特征向量是在客户端上使用 Deep Sets模型对本地数据分布进行特征提取得到的； [0007]步骤2：使用K ‑Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类，以便将数据分布相似的客户端分入至相同组； [0008]步骤3：为每个分组设定对应的聚簇标识，不同分组对应不同的聚簇标识，相同组内的客户端具有相同的聚簇标识； [0009]步骤4：根据客户端的聚簇标识对客户端进行调度，使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。 [0010]进一步地，步骤4中，具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型的过程中使用差分隐私方式保护客户端上的本地数据。 [0011]进一步地，步骤2中，所述K ‑Means聚类算法采用欧几里得距离作为任意两个客户端的本地数据分布的特征向量之间的距离。 [0012]另一方面，本发明提供一种聚类联邦学习装置，包括：客户端和服务器端；在所述客户端上，设置有特征提取模块；在所述服务器端上，设置有聚类模块和调度模块； [0013]所述特征提取模块，用于使用Deep Sets模型对本地数据分布进行特征提取得到本地数据分布的特征向量； [0014]所述聚类模块，用于使用K ‑Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类，以便将数据分布相似的客户端分入至相同组；以及为每个分组设定对应的聚簇标识，不同分组对应不同的聚簇标识，相同组内的客户端具有相同的聚簇标识； [0015]所述调度模块，用于根据客户端的聚簇标识对客户端进行调度，使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。 [0016]进一步地，在所述调度模块中，具有相同聚簇标识的客户端采用联邦学习算法共说　明　书 1/6 页 3 CN 115169582 A 3

专利 一种聚类联邦学习方法及装置

专利一种聚类联邦学习方法及装置