(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211343442.7
(22)申请日 2022.10.31
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 杜德慧 刘源昊
(74)专利代理 机构 上海蓝迪专利商标事务所
(普通合伙) 31215
专利代理师 徐筱梅 张翔
(51)Int.Cl.
G06N 3/04(2006.01)
G06N 3/06(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于抽象自动机的时间序列对抗样本
生成方法
(57)摘要
本发明公开了一种基于抽象自动机的时间
序列对抗样 本生成方法, 旨在通过使用循环神经
网络到权重有限自动机的抽象方法, 构建循环神
经网络训练过程所对应的权重有限自动机, 并基
于权重有限自动机, 提出一种时间序列对抗样本
生成方法, 用于提高循环神经网络的鲁棒性。 该
方法特点在于: 将原始输入进行抽象区间划分训
练循环神经网络; 将原始循环神经网络抽象成为
对应的权重有限自动机; 并使用权重有限自动机
与原始循环神经网络的分类结果差异, 用以快速
筛选易受攻击的样本; 使用敏感负样本与目标正
样本的迭代搜索在易受攻击的样本上生成相应
的对抗样 本。 本发明能有效生 成最小扰动的时间
序列对抗样本, 且能确保生成的样本质量。
权利要求书2页 说明书5页 附图3页
CN 115545167 A
2022.12.30
CN 115545167 A
1.一种基于抽象自动机的时间序列对抗样本生成方法, 其特征在于, 该方法包括如下
具体步骤:
A: 首先根据原始时间序列数据集, 设定循环神经网络的结构信息和激活函数参数, 训
练循环神经网络, 以完成时间序列分类任务;
B: 对循环神经网络的输出序列进行抽象, 构建权 重有限自动机, 具体包括:
B1: 首先对原始输入数据进行正则化, 将全部特征值按分布表示为 0‑1 之间的值, 从
而为后续输入划分提供 统一的操作视图; 还允许在 满足上述将原始输入数据正则化的情况
下进一步手动调细抽象划分的粒度, 最终 获得输入域应当划分成的初步抽象块个数;
B2: 之后分别计算输入数据各维度上相邻特征值的平均差距值, 并以该差距值缩小一
个数量级为 微小差异值, 保证输入抽象划分的有效性;
B3: 在满足上述计算微小差异值的情况下进一步手动调细抽象划分的粒度, 最终获得
输入域应当划分成的进一 步精化的抽象块个数;
B4: 在循环神经网络上对训练数据集中所有输入序列按照时间步逐步执行, 输出隐状
态的显式表示并记录; 对所有记录到的显式表示执行预测结果抽象和预测置信度抽象, 得
到完整的抽象表示并加以记录;
B5: 对权重有限自动机的状态向量进行初始化; 该状态向量是在全体抽象状态之外另
设一个独立的初始状态, 所有输入序列的执行统一从该状态开始, 其物理意义是接 收输入
前的权重有限自动机将会输出各类别置信度相等的分类结果, 对应于原神经网络使用全 0
初始化; 循环神经网络的隐状态统一初始化为全 0 形式, 故采用全0方式构建初始状态向
量;
B6: 建立权重有限自动机的统计迁移矩阵; 对于抽象状态集合中的每一个抽象状态, 记
录循环神经网络在整个训练数据集上的执行过程中得到的落入该抽象状态中的实例 状态
对应的分类预测输出, 并对记录的向量中的每个元素按分布表 示为 0‑1 之间的概率值, 将
记录的概 率化之后的向量组装为统计迁移 矩阵;
B7: 建立权重有限自动机的概率输出矩阵; 记录循环神经网络在整个训练数据集上的
执行过程中得到的落入该抽象状态中的实例状态对应的分类预测输出, 并对记录的向量进
行概率化, 并对记录的向量中的每个元素按分布表示为 0‑1 之间的概率值, 将记录的概率
化之后的向量组装为 概率输出矩阵; 至此完成权 重有限自动机的构建;
C: 利用构建的权重有限自动机和原始循环神经网络的预测结果寻找边缘正样本并进
行对抗样本生成, 具体包括:
C1: 在整个训练数据集上使用循环神经网络和从步骤B中得到的权重有限自动机分别
进行预测, 当权重有限自动机预测 正确而循环神经网络预测错误时, 说明与其他在外部表
示方式上相似、 事实上分类类别也相同的样本相比, 该样本被循环神经网络处理和理解为
了不同的潜在流形, 从而 预测为了错误的类别, 将符合这种情况的样 本称为敏感负样本; 对
两者的预测结果以及训练集标签进行对比, 挑选出训练数据集中的敏感负 样本;
C2: 在整个训练数据集中寻找与C1中挑选出的距离敏感负样本最近、 且实际的所属类
别相同的正样本, 所述距离通过敏感负样本与寻找出的正样本于各个时间步分别落入的抽
象输入块之间的距离来衡量;
C3: 根据窗口大小和控制超参数确定当前轮次的取样粒度, 在窗口内依照所述取样粒权 利 要 求 书 1/2 页
2
CN 115545167 A
2度进行取样, 将全部新取 得的样本送入递归神经网络模型进行 预测;
C4: 定位到预测结果中正负分界的位置, 更新窗口大小为该位置两侧的采样样本之间
的矩阵差值; 随着迭代的进行, 采样粒度逐轮变得精细, 窗口两侧的样本各自对应的潜在流
形不断逼近正负两类流形之间的分类边界, 直至取样粒度小于设定的对抗扰动幅度时, 最
接近边界的正样本即为 边缘正样本;
C5: 设定对抗扰动的幅度, 允许在微小差异值的前提下对扰动幅度的大小进行调整, 从
而确保总是实施微小扰动;
C6: 计算扰动窗口的大小, 微小窗口为大小低于输入样本的时间步长度一个数量级的
窗口, 在此约束下对实际选用的扰动窗口大小 进行灵活调整;
C7: 引入专 家检查以确认边 缘正样本没有偏离正确标签所指向的类别;
C8: 对于合格的边缘正样本, 令扰动窗口按照时间步滑动并施加规定的方向和幅度的
扰动以生成对抗样本, 最后将生成的所有对抗样本存 入对抗样本集。
2.根据权利要求1所述的基于抽象自动机的时间序列对抗样本生成方法, 其特征在于,
所述步骤A, 具体包括:
A1: 将原始时间序列数据集按照8 ∶2的比例进行分割, 分成训练集和 测试集;
A2: 设定隐藏层、 神经元数量参数, 并选用Adam优化器和交叉熵损失函数, 训练完成时
间序列分类任务的循环神经网络;
A3: 采用测试准确率和损失值 Loss 这两个标准, 自动在A2中训练所得的完成时间序
列分类任务的循环神经网络中选取并更新最优模型; 当下面两种情况出现时更新选取的最
优模型: 1) 在测试数据集上, 当前模型的准确率超过最优模型的1%; 2) 在测试数据集上, 当
前模型的准确率大于最优模型 的准确率, 但不超过1%, 且当前模型 的损失值不超过最优模
型的损失值。权 利 要 求 书 2/2 页
3
CN 115545167 A
3
专利 一种基于抽象自动机的时间序列对抗样本生成方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:05上传分享