专利 一种时序数据的聚类方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211231770.8 (22)申请日 2022.09.30 (71)申请人深圳前海微众银行股份有限公司地址 518027 广东省深圳市前海深港合作区前湾一路1号A栋201室申请人香港科技大学 (72)发明人王嘉川　陈雷　尤嘉　李泽宇　李诚　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 专利代理师雷航 (51)Int.Cl. G06F 16/906(2019.01) G06F 16/2458(2019.01) G06K 9/62(2022.01)G06F 17/18(2006.01) G06N 20/00(2019.01) (54)发明名称一种时序数据的聚类方法及装置 (57)摘要本发明实施例涉及一种时序数据的聚类方法及装置。该方法包括：获取任一待聚类时序数据；将待聚类时序数据输入至预测模型，得到待聚类时序数据分别属于k个聚类分区的k个概率值； k个聚类分区是至少以第一目标函数为目标且采用样本时序数据对预测模型进行训练得到的；第一目标函数用于实现k个聚类分区中任意两个聚类分区中的样本时序数据的数量的差值小于第一预设阈值；将k个概率值中满足预设条件的概率值对应的聚类分区确定为待聚类时序数据所属的聚类分区。将待聚类时序数据输入至以第一目标函数为目标进行训练的预测模型中，可以进行更加合理更加均衡的聚类，体现出不同时序数据之间的差异性，提高时序数据之间的区分度，提高聚类的准确性。权利要求书3页说明书19页附图5页 CN 115495631 A 2022.12.20 CN 115495631 A 1.一种时序数据的聚类方法，其特征在于，包括：获取任一待聚类时序数据；将所述待聚类时序数据输入至预测模型，得到所述待聚类时序数据分别属于k个聚类分区的k个概率值；所述k个聚类分区是至少以第一目标函数为目标且采用样本时序数据对所述预测模型进行训练得到的；所述第一目标函数用于实现所述k个聚类分区中任意两个聚类分区中的样本时序数据的数量的差值小于第一预设阈值；将所述k个概率值中满足预设条件的概率值对应的聚类分区确定为所述待聚类时序数据所属的聚类分区。 2.如权利要求1所述的方法，其特征在于，所述预测模型至少包括判别器；通过如下方式训练所述预测模型，包括：对多个第一样本时序数据进行聚类，得到k个初始聚类分区；针对任一第二样本时序数据，将所述第二样本时序数据输入至初始判别器，得到所述第二样本时序数据属于所述k个初始聚类分区的k个判别概率；至少以所述第一目标函数为目标，根据所述k个判别概率对所述初始判别器进行调参，得到更新判别器，将所述初始判别器更新为所述更新判别器；根据所述 k个判别概率确定所述第二样本时序数据所属的初始聚类分区；根据所述第二样本时序数据对所述第二样本时序数据所属的初始聚类分区进行更新，得到所述第二样本时序数据所属的更新聚类分区；将所述初始聚类分区更新为所述更新聚类分区，返回针对任一第二样本时序数据，将所述第二样本时序数据输入至所述判别器的步骤，直至通过所述更新判别器得到的k个判别概率满足所述第一目标函数。 3.如权利要求2所述的方法，其特征在于，在得到k个初始聚类分区之后，还包括：计算所述第二样本时序数据与所述k个初始聚类分区的初始聚类中心的k个距离，根据所述k个距离确定所述第二样本时序数据分别属于所述 k个初始聚类分区的k个计算概率；至少以所述第一目标函数为目标，根据所述k个判别概率对所述初始判别器进行调参，包括：以所述第一目标函数和第二目标函数为目标，根据所述k个判别概率对所述初始判别器进行调参；所述第二目标函数用于实现所述第二样本时序数据针对同一初始聚类分区对应的计算概率与判别概率的差值小于第二预设阈值；根据所述 k个判别概率确定所述第二样本时序数据所属的初始聚类分区，包括：根据所述k个判别概率和所述k个计算概率确定所述第二样本时序数据所属的初始聚类分区。 4.如权利要求3所述的方法，其特征在于，在针对任一第二样本时序数据，将所述第二样本时序数据输入至所述判别器之前，还包括：在第三样本时序数据中截取多个子样本时序数据，所述子样本时序数据为所述第二样本时序数据；根据所述第二样本时序数据对所述第二样本时序数据所属的初始聚类分区进行更新，得到所述第二样本时序数据所属的更新聚类分区，包括：根据多个所述第二样本时序数据所属的初始聚类分区，确定所述第三样本时序数据所属的初始聚类分区；权　利　要　求　书 1/3 页 2 CN 115495631 A 2根据所述第三样本时序数据对所述第三样本时序数据所属的初始聚类分区进行更新，得到所述第三样本时序数据所属的更新聚类分区。 5.如权利要求 4所述的方法，其特征在于，所述预测模型还包括编码器；针对任一第二样本时序数据，将所述第二样本时序数据输入至初始判别器，包括：针对任一第二样本时序数据，将所述第二样本时序数据输入至所述编码器进行编码，得到编码后的第二样本时序数据；将所述编码后的第二样本时序数据输入至所述初始判别器；所述方法还包括：将所述编码后的第二样本时序数据输入至解码器，得到解码结果；以所述第一目标函数、所述第二目标函数和第三目标函数为目标，根据所述k个判别概率对所述编码器进行调参；所述第三目标函数用于实现所述解码结果与所述第二样本时序数据之间的距离小于第四预设阈值；至少以所述第一目标函数为目标，根据所述k个判别概率对所述初始判别器进行调参，包括：以所述第一目标函数、所述第二目标函数和所述第三目标函数为目标，根据所述k个判别概率对所述初始判别器进行调参。 6.如权利要求5所述的方法，其特征在于，通过如下方式确定所述第一目标函数：针对任一所述第二样本时序数据，在确定所述第二样本时序数据所属的初始聚类分区后，根据衰减系数更新所述k个初始聚类分区对应的k个数据频率；所述数据频率用于表征任一聚类分区中对应的第二样本时序数据的数量；所述衰减系数用于表征所述数据频率变化的幅度；针对所述第二样本时序数据的下一个第二样本时序数据，获取所述k个数据频率，根据所述k个数据频率和所述下一个第二样本时序数据对应的k个判别概率，确定所述第一目标函数。 7.如权利要求5所述的方法，其特征在于，通过如下方式确定所述第二目标函数：针对任一初始聚类分区，计算多个所述第二样本时序数据对应的判别概率和计算概率的方差，将所述方差作为所述第二目标函数。 8.一种时序数据的聚类装置，其特征在于，包括：获取单元，用于获取任一待聚类时序数据；处理单元，用于：将所述待聚类时序数据输入至预测模型，得到所述待聚类时序数据分别属于k个聚类分区的k个概率值；所述k个聚类分区是至少以第一目标函数为目标且采用样本时序数据对所述预测模型进行训练得到的；所述第一目标函数用于实现所述k个聚类分区中任意两个聚类分区中的样本时序数据的数量的差值小于第一预设阈值；将所述k个概率值中满足预设条件的概率值对应的聚类分区确定为所述待聚类时序数据所属的聚类分区。 9.一种计算设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行权利要求1至权　利　要　求　书 2/3 页 3 CN 115495631 A 3

专利 一种时序数据的聚类方法及装置

专利一种时序数据的聚类方法及装置