专利 基于强化学习的无人机知识模型组合的参数寻优方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211342407.3 (22)申请日 2022.10.31 (65)同一申请的已公布的文献号申请公布号 CN 115392444 A (43)申请公布日 2022.11.25 (73)专利权人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人张驭龙　冯旸赫　朱松岩　刘忠　黄金才　黄魁华　李敏　张龙飞　刘瑶　阳方杰　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师彭小兰(51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01) G05B 13/04(2006.01) 审查员王敏 (54)发明名称基于强化学习的无人机知识模型组合的参数寻优方法 (57)摘要本申请涉及一种基于强化学习的无人机知识模型组合的参数寻优方法。所述方法包括：利用组合动作损失函数对预先构建的组合动作神经网络进行训练，得到训练好的组合动作评价网络；根据原子动作损失函数对预先构建的原子动作神经网络进行训练，得到初始原子动作评价网络；根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，根据每个原子动作的评价值对预先构建的参数优化网络进行训练，利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。采用本方法能够提高无人机知识模型组合准确率。权利要求书3页说明书10页附图3页 CN 115392444 B 2022.12.30 CN 115392444 B 1.一种基于强化学习的无人机知识模型组合的参数寻优方法，其特征在于，所述方法包括：获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本；所述无人机知识模型组合对应的超参数作为组合动作；所述无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作；对所述组合动作进行结构化分解，得到多个一维原子动作；利用无人机知识模型组合在预先设置的周期内对目标区域执行任务，得到当前时刻无人机知识模型组合的环境及时反馈值；根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用所述组合动作损失函数对预先构建的组合动作神经网络进行训练，得到训练好的组合动作评价网络；利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，根据所述原子动作损失函数对预先构建的原子动作神经网络进行训练，得到初始原子动作评价网络；根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对所述初始原子动作评价网络进行训练，得到训练好的原子动作评价网络；利用所述训练好的原子动作评价网络对多个一维原子动作序列进行评价，得到每个原子动作的评价值；根据所述每个原子动作的评价值对预先构建的参数优化网络进行训练，得到训练好的参数优化网络；利用所述训练好的参数优化网络对所述待优化的无人机知识模型组合的参数进行优化。 2.根据权利要求1所述的方法，其特征在于，所述组合动作损失函数包括当前时刻组合动作损失函数和历史时刻组合动作损失函数；所述历史时刻无人机知识模型的参数样本中包含当前时刻之前的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值；根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用所述组合动作损失函数对预先构建的组合动作网络进行训练，得到训练好的组合动作网络，包括：根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数；所述评价值包含目标值和估计值；根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数。 3.根据权利要求2所述的方法，其特征在于，根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数，包括：根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数为权　利　要　求　书 1/3 页 2 CN 115392444 B 2其中，表示基于贝尔曼公式评价值的误差期望值，表示环境及时反馈值，表示损失因子，表示在t+1时刻无人机知识模型组合处于态势信息时的对应的组合动作的目标值，表示对态势信息的编码，表示时序状态编码下的策略，即所述时序状态编码下采取相关动作的相应概率值，表示在t时刻无人机知识模型组合处于态势信息时的对应的组合动作的估计值。 4.根据权利要求3所述的方法，其特征在于，根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数，包括：根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数为其中，m表示参数样本的数量，表示在样本 j+1中无人机知识模型组合处于态势信息时的对应的组合动作的目标值，表示在样本 j 中无人机知识模型组合处于态势信息时的对应的组合动作的估计值。 5.根据权利要求4所述的方法，其特征在于，利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，包括：利用多个原子动作对应的动作评价值的差值构建原子动作损失函数为其中，表示前一个原子动作Q值与其后原子动作差值和的期望值， Q值表示状态 u下采用动作a的评价值， N表示原子动作个数，表示原子动作的序号，表示第k个原子动作的状态值，表示第k个原子动作，表示第k个原子动作的Q 值。 6.根据权利要求5所述的方法，其特征在于，所述预先设置的训练约束条件为，其中，表示在t时刻处于态势信息时的对应的组合动作的评价值，表示处于态势信息时的第N‑1个原子动作的状态值对应的原子动作的评价值。 7.根据权利要求6所述的方法，其特征在于，根据预先设置的训练约束条件、训练好的权　利　要　求　书 2/3 页 3 CN 115392444 B 3

专利 基于强化学习的无人机知识模型组合的参数寻优方法

专利基于强化学习的无人机知识模型组合的参数寻优方法