0 引言
近年来,以多无人机形式完成协同搜索[1]、路径规划[2-3]、林火识别[4]、目标跟踪[5-6]、快速机动[7]和任务分配[8]等复杂任务在军事和民用各个领域都取得了广泛关注[9]。各无人机之间通过集中协调、分布式控制或分散控制能够实现多无人机间的合作式、非合作式等形式的协调控制[10]。其中,合作式多无人机的协调需要各无人机之间交互大量状态、控制等信息,当存在通信干扰时,或在通信拒止环境下会严重影响飞行安全。非合作式的多无人机需要无人机依靠机载雷达、相机等传感器感知环境信息,根据环境信息进行自主决策完成合作任务,由于其不依赖通信,当存在冲突或在高动态环境下具有优势。
非合作式的无人机对自主决策能力要求较高,需要复杂传感器及较高的计算能力。针对空域内其他动态飞行器和障碍物的躲避问题,国内外学者提出诸多方法。传统控制算法通常需要获得较为全面的环境信息,在信息不完备的条件下难以满足无人机的控制要求[11]。最接近点法[12]、碰撞锥法[13]和速度障碍法[14]这一类几何算法是根据无人机之间的速度、位置、航向角等几何信息构建彼此关系,计算避障轨迹,可能因为计算量过大影响实时性。A*算法[15]适合应用在易于栅格化的静态环境中,障碍物一般也需设置为静态,不适合应用在连续状态和动作空间中的避障;RRT(rapidly-exploring random tree)[16]和RRT*等采样类算法在面临环境改变时会因增加迭代次数而降低算法的运行效率,不适合进行动态避障;人工势场法[17]需要提前根据环境信息设置虚拟力场,对突然进入环境中的障碍物难以做出反应。还有一些生物启发式算法[18],如遗传算法、蚁群算法、粒子群算法,这些算法在解决无人机的航迹规划和避障问题时,可能受到实时性或其他运动学条件的限制,不能够很好地完成动态环境下的实时避碰和航迹规划任务。
人工智能领域中的强化学习(RL)[19-20]等一系列智能算法逐渐被提出,这类算法不依赖于模型,凭借对高维信息的感知理解和处理能力,依靠前期训练好的模型就能够在飞行中实时控制无人机,不需要过多计算量,在动态避障时具备一定优势。通过策略学习,这类算法能够使无人机在面向复杂的任务环境时有足够的自主和智能行为。可以使用独立强化学习(IRL)的方法[21],如IDDPG(independent deep deterministic policy gradient)和IPPO(independent proximal policy optimization)方法,完成多无人机合作任务,通过对每个无人机的模型进行单独训练达到任务目标。但完全独立的训练可能会导致训练效率过慢,且有可能使智能体之间形成竞争关系,影响任务成功率。而多智能体强化学习方法[22],如MADDPG(multi-agent deep deterministic policy gradient)、MAPPO(multi-agent proximal policy optimization),是将其他无人机看作环境中的一部分,对多无人机任务进行集中式训练分布式执行,由于集中训练阶段算法输入包含环境内各个无人机的参数,输入维度过大可能影响网络训练速度,导致算法收敛较慢。对于集中式的无人机系统而言,进行如大规模无人机的飞行和避碰,无人机的集群编队[23],无人机集群追击围捕任务[24]、搜索追踪和无人机协同空战[25]等集群任务,需要集中协调每个无人机的路径以达到避碰和最优效果,会消耗大量的计算资源,尤其是随着无人机的个数增加,计算消耗和复杂性成倍增长,不利于多无人机系统和任务的扩展。而分布式系统能将路径规划的决定权分派给每个无人机个体,使个体拥有更高的自主性,因此这类分布式的方法有更大的应用前景。
本研究针对上述多无人机系统计算量大和通信复杂的问题,提出了一种基于分布式多经验池的DDPG(deep deterministic policy gradient)方法来解决无人机的避碰问题。本研究构建了基于多智能体分布式的确定性策略梯度方法,通过多经验池分布式地更新网络,提高算法收敛速度;根据目标位置需求设计了类人工势场法的奖励机制;通过与其他方法的对比实验验证所提方法的有效性,且在3个任务场景下进行了测试。
1 问题描述与模型建立 1.1 无人机动力学和运动学模型假定本文研究的无人机已具备自动驾驶仪功能,能够通过指令对无人机的飞行进行相应控制。构建由如下各式描述的无人机模型[26]。根据牛顿第二定律:
![]() |
(1) |
其中,F为作用在四旋翼无人机上的所有外力和;V为无人机质心速度;M表示无人机某定轴的合外力矩;m为无人机的质量;H为无人机相对地面坐标系的动量矩。
将无人机的4个电机产生的总升力定义为T。在机体坐标系中机体所受升力是垂直机体平面向上的,可表示为FB=[0 0 T]T,可得
![]() |
(2) |
其中,θ、ϕ和ψ分别表示无人机的俯仰、滚转和偏航角,b为力到扭矩的系数,ωi表示无人机4个电机的转速,FE表示无人机在地面坐标系下受到的总升力。
由牛顿第二定律和无人机的动力学方程,无人机在参考坐标系下的位移方程可表示为
![]() |
(3) |
其中,
![]() |
(4) |
针对上述模型的设计,为便于强化学习的算法实现,采用两个方向的加速度作为输出控制量对无人机的运动过程进行控制,无人机的动作空间应满足一定的限制,约束为
![]() |
(5) |
范围内的任意值。其中,a//表示无人机的切向加速度,而a⊥表示无人机的法向加速度。同样地,对速度也做出相应限制,规定无人机的速度范围为v∈[0,7 m/s]。
1.2 无人机传感器探测模型在仿真环境中,无人机模拟使用多线激光雷达传感器,对探测距离d内的静态和动态障碍物进行探测,并返回相关距离和偏向角度数据。为了模拟传感器的真实探测效果,对传感器探测结果增加一个服从正态分布ε~N(μ,σ2)的随机误差项。其中误差项的参数可以设定为μ=0,
![]() |
(6) |
其中,dg表示传感器在不同方向上返回的距离数据,而d′g表示传感器在不同方向上的真实距离,εg是服从正态分布ε~N(0,σ2)的随机误差。θg表示传感器方向角与机头方向的夹角。
当无人机前方遇到障碍物时,传感器返回的数据为无人机与障碍物之间的距离,然后对数据做归一化处理。传感器输入强化学习网络的数据范围在[0, 1]之间,其中数据越小表示无人机在该方向上与障碍物和边界越近,而1表示该角度的探测范围d内没有障碍物和边界。
2 基于DDPG的多无人机避碰策略针对无人机的导航和避障问题,本文设计了改进的分布式多经验池DDPG学习框架。为提高算法的效率和收敛速度,将DDPG算法分布式地应用在多个无人机上,将多个无人机的经验分别收集在不同经验池中,单独更新网络参数。为了引导无人机更快速地学习到达目标点,设计增加了以人工势场法为基础的稠密化奖励函数。这些设计提高算法收敛速度,并避免了无人机陷入局部最优的情况。
2.1 DDPG算法DDPG[27]算法是一种结合了基于值迭代和策略迭代的深度强化学习算法。DDPG算法主要由环境、经验池、策略网络和评价网络组成。智能体通过和环境交互得到经验并存储于经验池中,经验池中样本可批量抽样并更新网络参数,从而使策略网络输出更优的动作,使价值网络对策略网络的价值估计更准确。该算法的优势在于可以针对连续的状态空间和行为空间实现对智能体的最优策略控制,使无人机个体能在多机的环境中完成自己的任务并具有优良的性能。
无人机决策动作与环境交互部分可以抽象成马尔可夫决策过程(Markov decision process,MDP),其模型如图 1所示。
![]() |
图 1 基于运动控制的马尔可夫模型 Fig.1 Markov model based on motion control |
DDPG算法本身是由“Actor-Critic”算法转化而来,它由两个不同的网络模块组成。其中,策略网络通过输入状态确定无人机下一步的动作,评价网络通过状态和动作评估在该状态下这一行为的价值。
本文设计的策略网络和评价结构分别由3个全连接层(dense)神经网络组成。策略网络的输入为算法所设计的无人机和环境的状态信息s,输出为无人机的动作a,输入维数为23,输出维数为2。全连接层的神经元个数分别为[64, 32, 2],隐藏层使用ReLU(x)激活函数,输出层使用tanh(x)激活函数,并使用RMSProp(Root Mean Square Prop)算法作为训练优化器。
评价网络的输入是算法所设计的无人机和环境的状态信息及无人机自身的行为信息构成的集合s,输出为对无人机在该状态下这一动作的价值估计v,其输入维数为25,输出维数为1。每层网络的神经元个数分别为[64, 32, 1],隐藏层使用ReLU(x)激活函数,使用RMSProp算法作为训练优化器。
因此,本研究所设计的策略网络和评价网络的结构如图 2所示。
![]() |
图 2 策略网络和评价网络结构图 Fig.2 The network structure chart of actor and critic |
根据无人机的模型,假定无人机获得的当前状态由st=(x,y,α,s,Δx,Δy,θtarget)表示。其中,x和y分别表示无人机在基础坐标系上的位置;α表示无人机的朝向与x轴正方向的夹角,范围为[-π,π];s=(d1,…,d17)表示无人机传感器对不同方向探测所返回的带有误差项的距离数据;Δx和Δy是无人机与目标位置在x轴和y轴的坐标差;θtarget表示无人机与目标位置的偏向角。无人机的动作空间由at= (a//,a⊥)表示,a//、a⊥分别为无人机的切向加速度和法向加速度。
在DDPG算法中,由于输出动作行为是通过策略选择的确定值,因此容易导致智能体对环境探索不充分,需要对策略增加一定的探索性。考虑探索时,可以使用通常情况下深度强化学习的解决办法,即在网络输出的动作上增加一定的噪声,以增大对动作和环境空间的直接探索:
![]() |
(7) |
高斯噪声服从正态分布:
![]() |
(8) |
噪声的期望值为0、方差为σ并与迭代次数相关,随着算法更新次数的增多,方差会逐渐减小,为保证算法在初期具备一定的探索能力,将噪声方差的初始值设置为
![]() |
(9) |
其中,K=0.999 95,actionmax和actionmin分别为动作空间的边界,episode为算法迭代次数,方差最小值设置为σmin=0.1。
2.3 引导型回报机制在连续状态空间和动作空间的任务中,无人机随机初始化后需要经历较长的时间才能到达最终状态并获得正向奖励。这使算法在前期探索时较难达到目标,回报周期过长会导致算法收敛速度慢,无法进行有效学习。
因此,根据无人机的任务场景,对算法设置了相应的奖励函数,以引导无人机在满足约束的同时到达目标位置。奖励函数由目标方向的速度奖励、位置奖励、完成奖励和失败惩罚组成。
目标方向的速度奖励设计为
![]() |
(10) |
其中,
位置奖励设计:
![]() |
(11) |
其中,Δdt表示当前时刻无人机到目标位置的距离,Δdt+1表示下一时刻无人机到目标位置的距离,D表示训练场景的最大对角线距离。若无人机在下一时刻距离目标位置更近,该奖励为正,反之奖励为负。使用D对距离差Δdt-Δdt+1归一化处理,则奖励值范围为[-1, 1],有利于算法的学习。
在无人机向目标方向飞行过程中,可能会出现无人机之间碰撞及无人机飞出训练场景区域的情况,发生碰撞或出界的无人机会立即停止飞行。为了使无人机学习如何避免碰撞和出界,当无人机碰撞和出界时,需增加惩罚为式(12)所示的负奖励:
![]() |
(12) |
无人机的任务是无碰撞地到达给定的目标位置。当无人机与目标位置的距离Δd满足Δd<1,即无人机在目标点附近1 m距离以内时,视为无人机完成任务,此时无人机应获得一个正向奖励,其奖励值能够在一定程度上覆盖无人机在探索时的负奖励。根据本实验所设计的实验场景范围,若无人机能在回合中顺利到达目标位置,无人机由出发点到目标点的步数一般在20~40之间,故将无人机完成任务的奖励设置在50:
![]() |
(13) |
若回合结束时无人机还在环境中探索,未发生碰撞和出界也未到达目标位置,则需增加一个负奖励以避免无人机在探索过程中选择过于保守的动作,这一奖励值需小于任务成功的正向奖励,根据实验和经验,选择式(14)所设计的值:
![]() |
(14) |
综合上述奖励设计,无人机在导航阶段的总体奖励函数设计如式(15)所示:
![]() |
(15) |
其中,无人机在每个回合的结束阶段可能获得的奖励或惩罚由式(12)~式(14)决定,完成任务的奖励最高为50,而其他各类惩罚经实验可都设置为-10。无人机在单个回合的每一步中,奖励值由式(10)~式(11)计算得出,过程中获得的奖励函数设计能够更好地引导无人机向目标位置飞行,加快算法的训练速度。
2.4 分布式多经验池DDPG算法本文采用经典的DDPG作为基准算法,在训练阶段对算法网络进行集中训练。各无人机的算法和控制结构是独立的,参数由集中训练部分更新,并根据无人机各自的状态观测信息独立进行动作决策。将它们的状态转换元组分别存储在对应的经验回放池中,让算法进行多个经验池的抽样学习,以提高算法训练阶段样本的利用率和训练效率。改进后的训练算法伪代码如算法1所示。
算法1 DMEP-DDPG 随机初始化Critic网络Q(s,a|θQ)和Actor网络μ(s|θμ)中的参数θQ和θμ; 初始化值目标网络Q′和μ′的参数θQ′←θQ和θμ′←θμ; 初始化经验回放池R1,…,Rn; for episode=0,…,M do 为动作探索初始化一个高斯噪声; 获得初始化的环境观测值s1; for t=1,…,T do 根据当前的策略和探索噪声选择一个动作 at=μ(st|θμ)+Noiset; 在环境中实施动作at获得环境奖励rt和对 环境的新观测值st+1; 存储状态转换元组(st,at,rt,st+1)到经 验回放池Ri; 分别在各个经验池中随机抽取N个转换 元组(st,at,rt,st+1)学习; 设定yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′); 使用最小化损失函数L更新Critic网络: 使用抽样数据的梯度更新Actor策略: 更新目标网络: θQ′←τθQ+(1-τ)θQ′; θμ′←τθμ+(1-τ)θμ′; end for end for
经验池对样本利用和训练效率有重要的影响。DDPG方法及其改进算法都只有单一的经验缓冲区,属于不同无人机和不同环境中的经验样本无序地存储在其中,有时难以在训练时达到较好的效果。因此本研究考虑在训练过程中,根据场景中无人机的数量设定经验池数量,将各个无人机的经验分别存储在各自的经验池中。这样能够将属于各单个无人机所处的相似环境中的经验样本分别存储,使相似场景的经验样本更加集中,有助于算法模型数据的训练。多经验池的设计结构如图 3所示。
![]() |
图 3 分布式多经验池结构设计 Fig.3 Structure design of the distributed multi-experience pool |
该结构将存放在各自的经验池的经验(sn,an,rn,sn+1)进行抽样学习,对集中的模型完成训练;再将模型参数应用到各无人机的控制模块中,通过输入当前的环境信息到策略网络和评价网络中获得下一步动作。多个无人机、多个经验池就和算法构成了分布式的控制模式,并通过多个经验池中样本的分别学习,提高模型的收敛性能。
3 仿真实验及结果分析 3.1 任务场景描述本文针对在有限空间内含有多架无人机的情况开展研究,假定无人机的目标位置各不相同,由于无人机出发点和目标点构成的路径可能存在冲突,特别是当无人机避碰时容易出现死锁现象,往往会导致无人机之间的碰撞。
本文研究如图 4所示的实验场景,仿真实验环境设计为20 m×20 m的2维空间,在区域s范围内存在N个同构的自主决策的四旋翼无人机,各个无人机具有不同的任务目标位置,其中假定无人机i和无人机j的任务目标点分别是无人机j和无人机i的起始点,在两架无人机向各自目标飞行的过程中,容易发生碰撞。因此考虑如何在无人机i或j探测到可能与对方无人机发生冲突时改变自身的飞行方向以避免碰撞是本文主要研究的问题之一。
![]() |
图 4 无人机自主避碰任务示意图 Fig.4 Schematic diagram of UAV autonomous collision avoidance mission diagram |
表 1是算法相关预设超参数,通过经验值调整并确定。
算法预设参数 | 参数数值 |
折扣因子 | 0.96 |
策略网络学习率 | 0.001 |
评价网络学习率 | 0.001 |
经验池大小 | 10 000 |
批学习样本数 | 64 |
仿真时间步长 | 0.1 |
回合数目 | 3 500 |
单回合最大时间步 | 200 |
训练过程中的无人机的仿真实验参数如表 2所示。
实验参数名称 | 参数数值 |
空间维数 | 2 |
空域范围 | [20×20] |
无人机个数 | 4 |
无人机初始位置 | [0, 20]×[0, 20] |
无人机初始速度 | 0 m/s |
无人机初始航向 | [-π,π] |
无人机之间安全距离 | 0.9 m |
运动仿真步长 | 0.1 s |
在以上算法和无人机仿真参数的设置下进行集中的离线学习,在PC终端进行网络模型训练。各无人机通过传感器参数获取周边环境距离和角度信息,通过训练算法得到无人机的加速度控制量并对无人机自身位置速度做相应变化控制,从而完成避障和目标位置的导航。
实验所用的虚拟训练场景大小为20 m×20 m。仿真训练环境中设定有4架无人机,从4个边界点位置出发,目标是相向飞行至对角线无人机的位置。
3.3 多无人机避碰实验策略图 5为本文所设计的多无人机防撞策略,其中有4架四旋翼无人机,4架无人机的控制结构都是相同的。根据图示各部分介绍系统中各无人机在防撞任务中的控制策略:
![]() |
图 5 多机避碰控制策略 Fig.5 Multi-UAV collision avoidance control strategy |
各无人机在使用传感器检测环境信息后,获取与目标位置的距离和夹角信息,判断是否碰撞、出界或者已经到达目标位置。若未到达目标位置,则还需要将传感器处理和归一化后的数据应用于算法决策部分。算法输出动作与环境状态和奖励存储于经验池(其中s_表示s的下一状态)中,用于对算法的网络参数进行不断更新。当算法输出动作后,经运动控制部分对无人机状态进行改变,进而改变无人机集群整体的状态。最后,当系统中的多个无人机的任务都结束,整个任务结束。
在模型网络训练过程中,为了提高网络的学习效率,采用了集中式学习的训练方式。模型网络的数据学习是更加全面的、合理的,整个训练环境相对于评价网络是稳定的。通过这种集中学习不同智能体获得环境信息的方式,可以实现评价网络更加高效的更新,同时对策略网络提供更加准确的评估。
此外,在算法策略执行部分,由多个策略网络(actor)分别负责输出各个机器人的运动参数。各个actor之间呈分布式结构,网络仅通过自身局部观测和通信信息,就可以进行动作决策。在整个模型中,各个策略网络是独立分布的,不会构成相互影响,可实现从观测到动作输出的分布式控制方式。
3.4 结果分析 3.4.1 算法有效性验证为了验证本文所提出的算法框架的有效性,根据上述设计的实验方法进行实验,探究不同控制算法下的无人机的自主飞行能力和算法效率,记录本文算法模型在4个无人机训练过程中的平均得分奖励曲线。
在动作部分增加两种噪声的初期实验对比中,OU(Ornstein-Uhlenbeck)噪声的添加使得模型训练前期的探索更迅速,在训练前期无人机就能够达到较高的奖励,但后期奖励的波动更大,说明模型不够稳定;而添加了高斯噪声的训练过程中,前期奖励变化较慢,训练后期效果显著提升,更加稳定。因此,根据对两种噪声的对比训练结果,本研究在该实验状态下使用高斯噪声增加模型对动作的探索。
使用本文所设计的DMEP-DDPG算法框架在训练环境下将算法分布式应用于4个无人机上,其训练过程中的奖励情况如图 6所示。其中,4架无人机在初始阶段的奖励都在0以下,说明此时算法策略还不能控制无人机飞往目标方向,随着算法训练回合数不断增加,奖励值不断增加,说明策略效果逐步提升,最终奖励值在125左右稳定小幅波动。在500~2 000回合中,4架无人机的奖励值增长速度基本相同,随后,4架无人机都在2 000~2 500回合左右逐渐收敛,达到较高的奖励,说明此时算法已经找到解决问题的策略。往后一段时间无人机训练时算法动作输出端还存在高斯噪声,奖励值有小幅度波动,策略基本稳定且无人机在大部分情况下都能完成任务。
![]() |
图 6 无人机在不同迭代轮次下的滑动平均奖励 Fig.6 Moving averaged reward in different episodes |
无人机在训练过程中的任务成功率如图 7所示。由图 7可知,任务成功率的基本趋势和无人机在训练过程中获得的奖励趋势大致一致,随着训练次数的增加,根据训练结果数据计算每50个回合的平均成功率,训练阶段成功率最高可以达到95.36%,并有一定的波动。训练初期各无人机的成功率在0附近,从500回合开始,各无人机的任务成功率有了较快的提升,到2 000回合时各无人机的任务成功率基本达到80%,随后任务成功率缓缓上升并伴随一点波动,训练结束时各无人机的任务成功率均稳定在90.20%~94.43%。
![]() |
图 7 训练任务成功率 Fig.7 Training mission success rate |
通过实验可以发现,在训练2 000轮次之后,模型基本能完成收敛。将已经收敛后的策略模型,在PC终端环境中进行仿真测试,分析其性能,还尝试迁移至移动端真实无人机平台上进行直接执行。
训练好的网络模型规模较小,每个策略网络仅由3层全连接网络构成,因此所需移动端的算力较小。该模型在树莓派和Jetson Nano均可以做到实时流畅的在线运行,有助于满足未来在真实环境中的应用需求。
3.4.2 算法对比将DMEP-DDPG方法与TD3(Twin Delayed Deep Deterministic policy gradient)、DDPG、MADDPG方法和PPO(proximal policy optimization)方法进行比较,训练阶段无人机在上述算法下训练过程的滑动平均奖励曲线如图 8所示。其中,本文方法DMEP-DDPG和TD3、MADDPG方法都是由DDPG方法改进而来。TD3与DDPG和本文的DMEP-DDPG方法在训练前期的奖励上升速度几乎一致,DDPG最先陷入局部最优且较不稳定,后期存在一定下降趋势。而TD3由于双延迟思路的设计比DDPG算法有更加平稳和更高的奖励值。本文算法的奖励值在TD3的奖励值已经收敛后还继续上升,2 500回合以后逐渐稳定,其奖励值在130以上明显超过这两种方法,证明DDPG在增加了分布式和多经验池的改进后,能够显著提高算法的收敛性能。MADDPG算法奖励在500~800回合内有较快速度地增长,但随后算法奖励值逐渐下降,无法完成对策略的学习。由于评价网络需要输入多个无人机的状态参数,而本文所涉及的单个无人机的状态空间维度较大,评价网络的输入维度过大导致网络较难收敛。另一类PPO方法在训练过程中不稳定且陷入局部最优无法跳出而使无人机不能完成任务,最终无法达到收敛状态。
![]() |
图 8 不同算法的滑动平均奖励值 Fig.8 Moving averaged reward of different algorithms |
使用4架无人机的训练场景对算法网络进行训练后,用训练好的模型进行测试,测试结果如图 9所示,颜色由浅到深表示时间先后。其中,4架无人机分别加载所训练的模型,并计算出无人机自身的控制量,在前期大致向目标方向前进,当能探测到周边障碍物时,无人机各自决策令自身的法向加速度加大,使无人机离开中间的集中区域向旁边飞行,以避免在无人机较多的区域发生碰撞。在通过多架无人机可能发生交汇的区域后,模型输出通过法向加速度变化调整速度方向使无人机能够飞向目标位置。
![]() |
图 9 4架无人机固定目标点的飞行过程示意图 Fig.9 Schematic diagram of four UAVs fixed target points flight process |
用训练好的模型对4架无人机进行随机目标点任务的测试,飞行结果示意图如图 10所示。
![]() |
图 10 随机目标点示意图 Fig.10 Schematic diagram of random target |
图 10中蓝色无人机与目标点之间的轨迹和红色无人机与目标点之间的轨迹有极大可能出现冲突。由图中轨迹可知,红色无人机和蓝色无人机在相遇前都调整了飞行方向并向右偏航。证明两架无人机能够通过所训练的模型探测到前方存在的动态障碍,并通过模型输出的动作指令调整方向,能够完成动态避障并到达终点。
把模型应用在设有两个静态障碍物的复杂环境中测试算法的性能,实验结果如图 11所示。红色无人机、蓝色无人机和灰色无人机在(12 m,10 m)位置处先后通过,且红色无人机和蓝色无人机是相反方向,先后通过两个障碍物中间,最终4架无人机都顺利到达目标位置,此案例说明无人机也具备一定的静态障碍物躲避能力,模型具备一定的泛化性。
![]() |
图 11 无人机在复杂环境下的避障效果 Fig.11 Obstacle avoidance of UAV in complex environments |
在图 11中,蓝、红、灰三个颜色的无人机在两个障碍物的附近有路径交叠,故给出无人机飞行过程中的距离曲线图,如图 12所示。实验中无人机的臂长设计为0.4 m,因此只要无人机之间距离大于0.8 m则不会发生碰撞,根据图中的结果,各无人机之间的距离均大于2.5 m,能够很好地证明在图 10的实验场景下,各无人机之间是顺次通过的且未发生碰撞。
![]() |
图 12 各无人机之间的距离 Fig.12 Distance between UAVs |
将训练好的模型用于3种场景中分别进行10 000次测试实验,并计算无人机的任务成功率,实验所统计的任务成功率如图 13所示。场景1的4架无人机任务是飞向对角线处无人机的位置,其中目标设定为固定点;场景2较场景1的目标点设定有更大随机性,目标点设定为场景1中目标点并增加一个均值为0、方差为1的随机误差;场景3中4架无人机的任务是到达回合初始阶段随机设定的目标点,其中目标点均在20 m×20 m的平面内。
![]() |
图 13 4架无人机在不同任务场景下的任务成功率 Fig.13 Mission success rate of four UAVs in different scenarios |
以上实验数据结果说明,根据本文算法所训练得到的模型能够完成多个无人机在训练场景下的任务,且未与其他无人机发生碰撞;在场景2目标位置有一定随机性的情况下,模型测试成功率能在84.15%以上;在场景3中,无人机在完成随机目标位置的任务时,任务成功率在84%以上,证明模型具有一定的泛化能力。
4 结论围绕多无人机协同任务中,单架无人机仅依靠自身传感器完成自主避碰任务的问题,在深度确定性策略梯度算法基础上,提出了改进的DMEP-DDPG方法,实现了单个无人机在多机环境下的自主避碰。该算法设计的引导型稠密化奖励函数能够解决长周期下的稀疏回报问题,构建的分布式多经验池的算法框架提高了算法的收敛效率,经过仿真训练,DMEP-DDPG解决了大空间内多无人机避碰决策的典型问题。实验证明,所提出的DMEP-DDPG算法与DDPG、TD3、MADDPG和PPO算法相比较,有更好的收敛性能和更高的奖励值,设置的3种不同场景的模型测试在随机性更强的测试环境中该算法能够仅依靠传感器参数达到84.15%以上的成功率,进一步说明模型具备一定的泛化能力。在移动端的实验结果表明,该模型符合在真实无人机平台上直接执行的网络结构条件,有助于满足未来在真实环境中的应用需求。
[1] |
戴健, 许菲, 陈琪锋. 多无人机协同搜索区域划分与路径规划[J]. 航空学报, 2020, 41(S1): 149-156. DAI J, XU F, CHEN Q F. Multi-UAV cooperative search on region division and path planning[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(S1): 149-156. |
[2] |
张世勇, 张雪波, 苑晶, 等. 旋翼无人机环境覆盖与探索规划方法综述[J]. 控制与决策, 2022, 37(3): 513-529. ZHANG S Y, ZHANG X B, YUAN J, et al. A survey on coverage and exploration path planning with multi-rotor micro aerial vehicles[J]. Control and Decision, 2022, 37(3): 513-529. |
[3] |
ZHE B. Research on UAV delivery route optimization based on improved adaptive genetic algorithm[J]. Frontiers in Economics and Management, 2021, 2(3): 290-296. |
[4] |
SHIN J I, SEO W W, KIM T, et al. Using UAV multispectral images for classification of forest burn severity-A case study of the 2019 Gangneung forest fire[J]. Forests, 2019, 10(11)[2022-03-07]. http://www.mdpi.com/1999-4907/10/11/1025. DOI: 10.3390/f10111025.
|
[5] |
GAUTAM A, SINGH M, SUJIT P B, et al. Autonomous quadcopter landing on a moving target[J/OL]. Sensors. [2022-02-01]. https://www.mdpi.com/1424-8220/22/3/1116. DOI: 10.3390/s22031116.
|
[6] |
KWAK J, LEE S, BESK J, et al. Autonomous UAV target tracking and safe landing on a leveling mobile platform[J]. International Journal of Precision Engineering and Manufacturing, 2022, 23(3): 305-317. DOI:10.1007/s12541-021-00617-8 |
[7] |
LOQUERCIO A, KAUFMANN E, RANFTL R, et al. Deep drone racing: from simulation to reality with domain randomization[J/OL]. IEEE Transactions on Robotics, 2020, 36(1)[2022-07-11]. https://ieeexplore.ieee.org/document/8877728. DOI: 10.1109/TRO.2019.2942989.
|
[8] |
张祥银, 夏爽, 张天. 基于自适应遗传学习粒子群算法的多无人机协同任务分配[J/OL]. 控制与决策. [2022-07-14]. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=KZYC20220710008&uniplatform=NZKPT&v=SFfl7Znyzm6IgiurKSQYhPOxcnkzQsUwm7fyhYOSAaKlIu7eXzghyeKgwjoc6FOs. DOI: 10.13195/j.kzyjc.2022.0240. ZHANG X Y, XIA S, ZHANG T. Adaptive genetic learning particle swarm optimization based cooperative task allocation for multi-UAVs[J/OL]. Control and Decision. [2022-07-14]. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=KZYC20220710008&uniplatform=NZKPT&v=SFfl7Znyzm6IgiurKSQYhPOxcnkzQsUwm7fyhYOSAa-KlIu7eXzghyeKgwjoc6FOs. DOI: 10.13195/j.kzyjc.2022.0240. |
[9] |
贾永楠, 田似营, 李擎. 无人机集群研究进展综述[J]. 航空学报, 2020, 41(S1): 4-14. JIA Y N, TIAN S Y, Li Q. Development of unmanned aerial vehicle swarms[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(S1): 4-14. |
[10] |
AGGARWAL S, KUMAR N. Path planning techniques for unmanned aerial vehicles: A review, solutions, and challenges[J]. Computer communications, 2020, 149: 270-299. DOI:10.1016/j.comcom.2019.10.014 |
[11] |
YANG J C, ZHANG Z, MAO W, et al. Identification and micro-motion parameter estimation of non-cooperative UAV targets[J/OL]. Physical Communication: Conference Series. [2021-03-04]. https://www.sciencedirect.com/science/article/pii/S1874490721000513. DOI: 10.1016/j.phycom.2021.101314.
|
[12] |
PETRAS A, LING L, PIRET C M, et al. A least-squares implicit RBF-FD closest point method and applications to PDEs on moving surfaces[J]. Journal of Computational Physics, 2019, 381: 146-161. DOI:10.1016/j.jcp.2018.12.031 |
[13] |
HA L N N T, BUI D H P, HONG S K. Nonlinear control for autonomous trajectory tracking while considering collision avoidance of UAVs based on geometric relations[J/OL]. Energies. [2019-04-24]. https://www.mdpi.com/1996-1073/12/8/1551. DOI: 10.3390/en12081551.
|
[14] |
XU T, ZHANG S, JIANG Z, et al. Collision avoidance of high-speed obstacles for mobile robots via maximum-speed aware velocity obstacle method[J]. IEEE Access, 2020, 8: 138493-138507. DOI:10.1109/ACCESS.2020.3012513 |
[15] |
LIU X H, ZHANG D G, ZHANG T, et al. Novel best path selection approach based on hybrid improved A* algorithm and reinforcement learning[J]. Applied Intelligence, 2021, 51(12): 9015-9029. DOI:10.1007/s10489-021-02303-8 |
[16] |
REN X P, TAN L, JIA Q S, et al. Multi-target UAV path planning based on improved RRT algorithm[J/OL]. Journal of Physics: Conference Series[2020-12-25]. https://iopscience.iop.org/article/10.1088/1742-6596/1786/1/012038. DOI: 10.1088/1742-6596/1786/1/012038.
|
[17] |
YAN Y H, LYU Z Y, YUAN J B, et al. Obstacle avoidance for multi-UAV system with optimized artificial potential field algorithm[J/OL]. International Journal of Robotics & Automation, 2021, 36[2022-03-10]. http://oninelibrary.wiley.com/doi/10.2316/J.2021.2060610.
|
[18] |
HE H X, DUAN H B. A multi-strategy pigeon-inspired optimization approach to active disturbance rejection control parameters tuning for vertical take-off and landing fixed-wing UAV[J]. Chinese Journal of Aeronautics, 2022, 35(1): 19-30. DOI:10.1016/j.cja.2021.05.010 |
[19] |
YANG J, X H Y, WU G X, et al. Application of reinforcement learning in UAV cluster task scheduling[J]. Future Generation Computer Systems, 2019, 95: 140-148. |
[20] |
RODRIGUEZ-RAMOS A, SAMPEDRO C, PUENTE H B, et al. A deep reinforcement learning strategy for UAV autonomous landing on a moving platform[J]. Journal of Intelligent & Robotic Systems: Theory & Applications, 2019, 93(1/2): 351-366. |
[21] |
MATIGNON L, LAURENT G J, LE FORT-PIAT N, et al. Independent reinforcement learners in cooperative Markov games: A survey regarding coordination problems[J]. The Knowledge Engineering Review, 2012, 27(1): 1-31. |
[22] |
ZHAO W W, CHU H R, MIAO X K, et al. Research on the multiagent joint proximal policy optimization algorithm controlling cooperative fixed-wing UAV obstacle avoidance[J]. Sensors, 2020, 20(16): 1-16. |
[23] |
相晓嘉, 闫超, 王菖, 等. 基于深度强化学习的固定翼无人机编队协调控制方法[J]. 航空学报, 2021, 42(4): 420-433. XIANG X J, YAN C, WANG C, et al. Coordination control method for fixed-wing UAV formation through deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(4): 420-433. |
[24] |
符小卫, 王辉, 徐哲. 基于DE-MADDPG的多无人机协同追捕策略[J]. 航空学报, 2022, 43(5): 530-543. FU X W, WANG H, XU Z. Research on cooperative pursuit strategy for Multi-UAVs based on DE-MADDPG algorithm[J]. Acta Aeronautica et Astronautica Sinica, 2022, 43(5): 530-543. |
[25] |
施伟, 冯旸赫, 程光权, 等. 基于深度强化学习的多机协同空战方法研究[J]. 自动化学报, 2021, 47(7): 1610-1623. SHI W, FENG Y H, CHENG G Q, et al. Research on multi-aircraft cooperative air combat method based on deep reinforcement learning[J]. Acta Automatica Sinica, 2021, 47(7): 1610-1623. |
[26] |
叶帅. 基于事件触发自适应动态规划的多四旋翼无人机优化控制[D]. 南京: 南京邮电大学, 2021. YE S. Optimal control of multi-quadrotor UAV based on event-triggered adaptive dynamic programming[D]. Nanjing: Nanjing University of Posts, 2021. |
[27] |
LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C/OL]//International Conference on Learning Representations. [2016-01-07]. https://doi.org/10.48550/arXiv.1509.02971. DOI: 10.48550/arXiv.1509.02971.
|