(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211342407.3
(22)申请日 2022.10.31
(65)同一申请的已公布的文献号
申请公布号 CN 115392444 A
(43)申请公布日 2022.11.25
(73)专利权人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 张驭龙 冯旸赫 朱松岩 刘忠
黄金才 黄魁华 李敏 张龙飞
刘瑶 阳方杰
(74)专利代理 机构 长沙国科天河知识产权代理
有限公司 432 25
专利代理师 彭小兰(51)Int.Cl.
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/02(2006.01)
G05B 13/04(2006.01)
审查员 王敏
(54)发明名称
基于强化学习的无人机知识模型组合的参
数寻优方法
(57)摘要
本申请涉及一种基于强化学习的无人机知
识模型组合的参数寻优方法。 所述方法包括: 利
用组合动作损失函数对预先构建的组合动作神
经网络进行训练, 得到训练好的组合动作评价网
络; 根据原子动作损失函数对预先构建的原子动
作神经网络进行训练, 得到初始原子动作评价网
络; 根据预先设置的训练约束条件、 训练好的组
合动作网络的输出和初始原子动作评价网络的
输出对初始原子动作评价网络进行训练, 根据每
个原子动作的评价值对预先构建的参数优化网
络进行训练, 利用训练好的参数优化网络对待优
化的无人机知识模型组合的参数进行优化。 采用
本方法能够提高无 人机知识模型组合 准确率。
权利要求书3页 说明书10页 附图3页
CN 115392444 B
2022.12.30
CN 115392444 B
1.一种基于强化学习的无人机知识模型组合的参数寻优方法, 其特征在于, 所述方法
包括:
获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本; 所述无人
机知识模型组合对应的超参数作为组合动作; 所述无人机知识模型组合中的无人机知识模
型对应的超参数作为原子动作;
对所述组合动作进行 结构化分解, 得到多个一维原子动作;
利用无人机知识模型组合在预先设置的周期内对目标区域执行任务, 得到当前时刻无
人机知识模型组合的环境及时反馈值;
根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失
函数, 利用所述组合动作损失函数对预先构建的组合动作神经网络进行训练, 得到训练好
的组合动作评价网络;
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数, 根据所述原子动
作损失函数对预 先构建的原子动作神经网络进行训练, 得到初始 原子动作评价网络;
根据预先设置的训练约束条件、 训练好的组合动作网络的输出和初始原子动作评价网
络的输出对所述初始 原子动作评价网络进行训练, 得到训练好的原子动作评价网络;
利用所述训练好的原子动作评价网络对多个一维原子动作序列进行评价, 得到每个原
子动作的评价 值;
根据所述每个原子动作的评价值对预先构建的参数优化网络进行训练, 得到训练好的
参数优化网络;
利用所述训练好的参数优化网络对所述待优化的无人机知识模型组合的参数进行优
化。
2.根据权利要求1所述的方法, 其特征在于, 所述组合动作损失函数包括当前时刻组合
动作损失函数和历史时刻组合动作损失函数; 所述历史时刻无人机知识模 型的参数样本中
包含当前时刻之前 的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的
评价值; 根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损
失函数, 利用所述组合动作损失函数对预先构建的组合动作网络进行训练, 得到训练好的
组合动作网络, 包括:
根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的
组合动作的评价 值构建当前时刻组合动作损失函数; 所述评价 值包含目标值和估计值;
根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合
动作损失函数。
3.根据权利要求2所述的方法, 其特征在于, 根据 所述环境及时反馈值和历史时刻无人
机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失
函数, 包括:
根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的
组合动作的评价 值构建当前时刻组合动作损失函数为
权 利 要 求 书 1/3 页
2
CN 115392444 B
2其中,
表示基于贝尔曼公式评价值的误差期望值,
表示环境及时反馈
值,
表示损失因子,
表示在t+1时刻无人机知识模型组合处
于态势信息
时的对应的组合动作的目标值,
表示对态势信息
的编码,
表示时序 状态编码
下的策略, 即所述时序 状态编码下采取相关动作的
相应概率值,
表示在t时刻无人机知识模型组合处于态势信息
时的对应的
组合动作
的估计值。
4.根据权利要求3所述的方法, 其特征在于, 根据 所述环境及时反馈值和历史时刻无人
机知识模型的参数样本构建历史时刻组合动作损失函数, 包括:
根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合
动作损失函数为
其中,m表示参数样本的数量,
表示在样本 j+1中无人机知 识模型
组合处于态势信息
时的对应的组合动作
的目标值,
表示在样本 j
中无人机知识模型组合处于态 势信息
时的对应的组合动作
的估计值。
5.根据权利要求4所述的方法, 其特征在于, 利用多个原子动作对应的动作评价值的差
值构建原子动作损失函数, 包括:
利用多个原子动作对应的动作评价 值的差值构建原子动作损失函数为
其中,
表示前一个原子动作Q值与其后原子动作差值和的期 望值, Q值表示状态
u下采用动作a的评价值, N表示原子动作个数,
表示原子动作的序号,
表示第k个原子
动作的状态值,
表示第k个原子动作,
表示第k个原子动作的Q 值。
6.根据权利要求5所述的方法, 其特征在于, 所述预先设置的训练约束条件为
, 其中,
表示在t时刻处于态势信息
时的对
应的组合动作
的评价值,
表示处于态势信息
时的第N‑1个原子动作
的状态值对应的原子动作
的评价值。
7.根据权利要求6所述的方法, 其特征在于, 根据预先设置的训练约束条件、 训练好的权 利 要 求 书 2/3 页
3
CN 115392444 B
3
专利 基于强化学习的无人机知识模型组合的参数寻优方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:03上传分享