(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211231770.8
(22)申请日 2022.09.30
(71)申请人 深圳前海微众 银行股份有限公司
地址 518027 广东省深圳市前海深港合作
区前湾一路1号A栋201室
申请人 香港科技大 学
(72)发明人 王嘉川 陈雷 尤嘉 李泽宇
李诚
(74)专利代理 机构 北京同达信恒知识产权代理
有限公司 1 1291
专利代理师 雷航
(51)Int.Cl.
G06F 16/906(2019.01)
G06F 16/2458(2019.01)
G06K 9/62(2022.01)G06F 17/18(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种时序数据的聚类方法及装置
(57)摘要
本发明实施例涉及一种时序数据的聚类方
法及装置。 该方法包括: 获取任一待聚类时序数
据; 将待聚类时序数据输入至预测模型, 得到待
聚类时序数据分别属于k个聚类分区的k个概率
值; k个聚类分区是至少以第一目标函数为目标
且采用样本时序数据对预测模型进行训练得到
的; 第一目标函数用于实现k个聚类分区中任意
两个聚类分区中的样本时序数据的数量的差值
小于第一预设阈值; 将k个概率值中满足预设条
件的概率值对应的聚类分区确定为待聚类时序
数据所属的聚类 分区。 将待聚类时序数据输入至
以第一目标函数为目标进行训练的预测模型中,
可以进行更加合理更加均衡的聚类, 体 现出不同
时序数据之间的差异性, 提高时序数据之间的区
分度, 提高聚类的准确性。
权利要求书3页 说明书19页 附图5页
CN 115495631 A
2022.12.20
CN 115495631 A
1.一种时序数据的聚类方法, 其特 征在于, 包括:
获取任一待聚类时序数据;
将所述待聚类时序数据输入至预测模型, 得到所述待聚类时序数据分别属于k个聚类
分区的k个概率值; 所述k个聚类分区是至少以第一目标函数为目标且采用样本时序数据对
所述预测模型进行训练得到的; 所述第一 目标函数用于实现所述k个聚类分区中任意两个
聚类分区中的样本时序数据的数量的差值小于第一预设阈值;
将所述k个概率值中满足预设条件的概率值对应的聚类分区确定为所述待聚类时序 数
据所属的聚类分区。
2.如权利要求1所述的方法, 其特 征在于, 所述预测模型至少包括判别器;
通过如下 方式训练所述预测模型, 包括:
对多个第一样本时序数据进行聚类, 得到k个初始聚类分区;
针对任一第二样本时序数据, 将所述第二样本时序数据输入至初始判别器, 得到所述
第二样本时序数据属于所述k个初始聚类 分区的k个判别概率; 至少以所述第一目标函数为
目标, 根据所述k个判别概率对所述初始判别器进行调参, 得到更新判别器, 将所述初始判
别器更新 为所述更新判别器;
根据所述 k个判别概 率确定所述第二样本时序数据所属的初始聚类分区;
根据所述第 二样本时序 数据对所述第 二样本时序 数据所属的初始聚类分区进行更新,
得到所述第二样本时序数据所属的更新聚类分区; 将所述初始聚类分区更新为所述更新聚
类分区, 返回针对任一第二样本时序数据, 将所述第二样本时序数据输入至所述判别器的
步骤, 直至通过 所述更新判别器得到的k个判别概 率满足所述第一目标函数。
3.如权利要求2所述的方法, 其特 征在于, 在得到k个初始聚类分区之后, 还 包括:
计算所述第 二样本时序 数据与所述k个初始聚类分区的初始聚类中心的k个距离, 根据
所述k个距离确定所述第二样本时序数据分别属于所述 k个初始聚类分区的k个 计算概率;
至少以所述第 一目标函数为目标, 根据 所述k个判别概率对所述初始判别器进行调参,
包括:
以所述第一目标函数和第二目标函数为目标, 根据所述k个判别概率对所述初始判别
器进行调参; 所述第二目标函数用于实现所述第二样本时序数据针对同一初始聚类分区对
应的计算 概率与判别概 率的差值小于第二预设阈值;
根据所述 k个判别概 率确定所述第二样本时序数据所属的初始聚类分区, 包括:
根据所述k个判别概率和所述k个计算概率确定所述第二样本时序数据所属的初始聚
类分区。
4.如权利要求3所述的方法, 其特征在于, 在针对任一第二样本时序数据, 将所述第二
样本时序数据输入至所述判别器之前, 还 包括:
在第三样本时序 数据中截取多个子样本时序 数据, 所述子样本时序数据为所述第 二样
本时序数据;
根据所述第 二样本时序 数据对所述第 二样本时序 数据所属的初始聚类分区进行更新,
得到所述第二样本时序数据所属的更新聚类分区, 包括:
根据多个所述第二样本时序 数据所属的初始聚类分区, 确定所述第 三样本时序 数据所
属的初始聚类分区;权 利 要 求 书 1/3 页
2
CN 115495631 A
2根据所述第 三样本时序 数据对所述第 三样本时序 数据所属的初始聚类分区进行更新,
得到所述第三样本时序数据所属的更新聚类分区。
5.如权利要求 4所述的方法, 其特 征在于, 所述预测模型还 包括编码器;
针对任一第二样本时序数据, 将所述第二样本时序数据输入至初始判别器, 包括:
针对任一第二样本时序数据, 将所述第二样本时序数据输入至所述编码器进行编码,
得到编码后的第二样本时序数据;
将所述编码后的第二样本时序数据输入至所述初始判别器;
所述方法还 包括:
将所述编码后的第二样本时序数据输入至解码器, 得到解码结果;
以所述第 一目标函数、 所述第 二目标函数和第 三目标函数为目标, 根据 所述k个判别概
率对所述编 码器进行调参; 所述第三目标函数用于实现所述解码结果与所述第二样本时序
数据之间的距离小于第四预设阈值;
至少以所述第 一目标函数为目标, 根据 所述k个判别概率对所述初始判别器进行调参,
包括:
以所述第 一目标函数、 所述第 二目标函数和所述第 三目标函数为目标, 根据所述k个判
别概率对所述初始判别器进行调参。
6.如权利要求5所述的方法, 其特 征在于, 通过如下 方式确定所述第一目标函数:
针对任一所述第二样本时序 数据, 在确定所述第 二样本时序数据 所属的初始聚类分区
后, 根据衰减系数更新所述k个初始聚类分区对应的k个数据频率; 所述数据频率用于表征
任一聚类分区中对应的第二样本时序数据的数量; 所述衰减系数用于表征所述数据频率变
化的幅度;
针对所述第 二样本时序 数据的下一个第二样本时序 数据, 获取所述k个数据 频率, 根据
所述k个数据频率和所述下一个第二样本时序数据对应的k个判别概率, 确定所述第一目标
函数。
7.如权利要求5所述的方法, 其特 征在于, 通过如下 方式确定所述第二目标函数:
针对任一初始聚类分区, 计算多个所述第 二样本时序数据对应的判别概率和计算概率
的方差, 将所述方差作为所述第二目标函数。
8.一种时序数据的聚类装置, 其特 征在于, 包括:
获取单元, 用于获取任一待聚类时序数据;
处理单元, 用于:
将所述待聚类时序数据输入至预测模型, 得到所述待聚类时序数据分别属于k个聚类
分区的k个概率值; 所述k个聚类分区是至少以第一目标函数为目标且采用样本时序数据对
所述预测模型进行训练得到的; 所述第一 目标函数用于实现所述k个聚类分区中任意两个
聚类分区中的样本时序数据的数量的差值小于第一预设阈值;
将所述k个概率值中满足预设条件的概率值对应的聚类分区确定为所述待聚类时序 数
据所属的聚类分区。
9.一种计算设备, 其特 征在于, 包括:
存储器, 用于存 储计算机程序;
处理器, 用于调用所述存储器 中存储的计算机程序, 按照获得的程序 执行权利要求1至权 利 要 求 书 2/3 页
3
CN 115495631 A
3
专利 一种时序数据的聚类方法及装置
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:05上传分享