(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111623998.7
(22)申请日 2021.12.28
(71)申请人 北京航空航天大 学
地址 100191 北京市海淀区学院路37号
(72)发明人 蔡开泉 杨杨 李梓琦 李悦
(74)专利代理 机构 北京永创新实专利事务所
11121
专利代理师 易卜
(51)Int.Cl.
G06Q 10/10(2012.01)
G06Q 10/06(2012.01)
G06Q 10/04(2012.01)
G06Q 50/30(2012.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于深度强化学习的多机场协同放行
方法
(57)摘要
本发明提出了一种基于深度强化学习的多
机场协同放行方法, 属于空中交通管理智能化领
域, 首先, 针对待协同放行的m个机场, 每个机场
中涉及的各航空公司, 将本航司在此m个机场中
的所有航班按优 先级从高到低排序; 基于机场公
平性生成满足总延误时间最小的初始离港航班
队列; 然后, 基于不同航班的优先级, 对初始 离港
航班队列建立 以最小化总延误成本为目标的多
机场协同放行模 型; 并将多机场协同放行模型转
化为相对应的马尔科夫决策过程; 最后, 选择深
度强化学习算法A3C对马尔科夫决策过程进行求
解, 得到最终的多机场协 同放行离港的队列, 降
低了总延误成本。 本发明设计了一种新的多机场
协同放行方法, 以减少航班延误, 提高多机场系
统的运行效益。
权利要求书3页 说明书10页 附图2页
CN 114548893 A
2022.05.27
CN 114548893 A
1.一种基于深度强化学习的多机场协同放行 方法, 其特 征在于, 具体步骤如下:
首先, 针对待协同放行的m个机场, 每个机场中涉及的各航空公司, 按优先级将本航司
在此m个机场中的所有航班从高到低排序; 保证每家航空公司航班优先级分布的拟合 曲线
符合幂律分布, 即体现航空公司的公平性;
然后, 基于机场公平性生成满足总延误时间最小的初始离港航班队列; 针对不同优先
级航班造成不同延误成本的特点, 对初始离港航班队列建立以最小化总延误成本为目标的
多机场协同放行模型, 并转 化为相对应的马尔科 夫决策过程;
最后, 选择深度强化学习算法A3C对马尔科夫 决策过程进行求解, 得到最终的总延误时
间保持最小、 总延误成本更低的多机场协同放行离 港的队列。
2.如权利要求1所述的一种基于深度强化学习的多机场协同放行方法, 其特征在于, 所
述的优先级按机型、 载客量、 载客率、 是否载有贵宾和是否有紧急特殊任务从高到低排序,
依次为优先级10至优先级1, 各航空公司根据自身实际情况制定优先级设置标准, 并对每架
航班的优先级 进行设置;
优先级设置标准为: 10种不同优先级的航班数量的拟合曲线满足幂律分布的概率密度
函数:
f(x)=cx‑α‑1,x→∞ (1)
式中: c和α均为常数, 当航空公司的总航班数量不同时, 对应的c和α有所不同, 但航空
公司设置的本航司航班优先级分布的拟合曲线均呈现长尾函数态, 每家 航空公司不同优先
级航班的比例基本相同。
3.如权利要求1所述的一种基于深度强化学习的多机场协同放行方法, 其特征在于, 所
述的初始离港航班队列即: 将延误时间按航班数量比例分配到各机场中, 各航班将自身的
计划起飞时间加上分配的延误, 按时间进行排队, 根据先到先服务原则形成初始离港航班
队列;
具体过程 为:
首先, 生成基于 机场公平性且 满足总延误时间最小的目标函数;
目标函数为:
式中: V={v1,v2,...vm}为所有机场集合;
为机场vm的所有航班集合,
, n为航班数量; m个机场中所有 航班集合为
为航班fn可用的离港时隙
集合;
为航班fn的延误时间; xfni为航班fn是否分配到 离港时隙i中的决策变量;
表示单个机场v的航班 平均延误时间;
后一项表示m个机场中所有航班的平均延误时间;
单个机场的航班平均延误 时间与多机场中所有航班平均延误 时间的方差最小, 体现了权 利 要 求 书 1/3 页
2
CN 114548893 A
2机场公平性;
然后, 利用整数规划算法对目标函数进行求解, 得到满足机场公平性的带有基线延误
的初始离 港航班队列。
4.如权利要求1所述的一种基于深度强化学习的多机场协同放行方法, 其特征在于, 所
述的多机场协同放行模型公式如下:
式中: cfh为是否暂停航班的决策变量, Eh为机场热点h内航班分配延误的最大值; 机场
热点h是指航班起飞时, 离港机场附近空域发生拥堵, 机场的离港移 交点就变为热点; Bfh为
航班f进入机场热点h的时间; Sfh为航班f计划进入机场热点h的时间; Df为航班f在地面的等
待成本; pfh为是否保护航班的决策变量, Bfh‑Sfh为航班f的基线延误; Vf为航空公司保护航
班f创造的价值; kfh为是否保持航班的决策变量; Mf为航班f延误的罚款; Oh为机场热点h的
OI值; OI为机场移交点的运营指数; OI=100*D/C; D为移交点在发生拥堵时的航班数量; C为
移交点的容量; Ch为移交点处在不同热区时空域资源的转换因子, 热区为热点存在的时间
区间;
为在机场热点h可保护的航班数量;
OC值为每一架航班自己
的可操作指数;
目标函数为暂停航班额外产生的地面等待成本、 保护航班减少的地面等待成本、 保护
航班额外的奖励、 暂停和保持航班 原本的延误罚款四项之和;
约束条件依次为: C1表示在基线延误中, 每架航班的OC值为100, 暂停低优先级的某航
班释放其OC值, 从100降到0, 保护高优 先级的某 航班则提升该航班的OC值至热点的OI值, 保
持基线延误航班的OC值不变, 依旧为 100, 调整后移交点所有航班的OC值之和不能大于调整
前移交点所有航班的OC值之和;
C2表示同一移交点在一天内可能出现多个热区, 在前一热区出现时, 暂停低优先级的
航班节省下的空域资源转换到本次热区继续使用, 但前一热区暂停 一架航班节省的OC值会
受到时间影响而小于100, 因此前一热区暂停航班节省下来的OC值需要乘上一个小于1的
Ch;
C3表示在热点中实际保护航班的数量应小于等于在热点中保护阈值内的航班数量;
C4表示某一 航班在热点内所处的状态唯一, 即受保护、 被暂停或保持基线延误;
C5表示设置的决策变量是0 ‑1整数型决策变量, 所有决策变量 服从二元约束。
5.如权利要求1所述的一种基于深度强化学习的多机场协同放行方法, 其特征在于, 所
述的马尔科夫决策过程需要解决的问题为: 多机场系统根据先到先服务原则为N个离港航权 利 要 求 书 2/3 页
3
CN 114548893 A
3
专利 一种基于深度强化学习的多机场协同放行方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:07:15上传分享