基于ADP的导引控制一体化全状态受限反演控制

文章快速检索

引用本文

吴翔, 刘春生, 孙景亮. 基于ADP的导引控制一体化全状态受限反演控制[J]. 信息与控制, 2019, 48(3): 293-301, 309.

WU Xiang, LIU Chunsheng, SUN Jingliang. Integrated Guidance and Control Design Using ADP and Backstepping with Full-state Constraints[J]. Information and Control, 2019, 48(3): 293-301, 309.

基于ADP的导引控制一体化全状态受限反演控制

吴翔, 刘春生, 孙景亮

南京航空航天大学自动化学院, 江苏南京 211100

收稿/录用/修回: 2018-08-23/2018-12-10/2019-01-12

作者简介: 吴翔(1993-), 男, 硕士.研究领域为导引控制一体化设计, 自适应动态规划.
刘春生(1955-), 女, 教授, 博士生导师.研究领域为自适应控制, 最优控制, 故障诊断与容错控制及其在飞行器中的应用.
孙景亮(1990-), 男, 博士.研究领域为最优控制, 微分对策, 自适应动态规划.

通信作者: 刘春生, liuchsh@nuaa.edu.cn

摘要: 针对导引控制一体化设计中状态受限及非线性最优问题，提出了一种结合反演控制与自适应动态规划（ADP）技术，考虑全状态受限的新型导引控制一体化设计方法.首先，将状态受限的严格反馈系统通过坐标变换转化为非状态受限系统.然后，采用前馈反演控制与反馈最优控制相结合的设计思路，利用ADP技术在线求解非线性HJB方程得到最优解.最后通过李亚普诺夫理论证明了系统的闭环稳定性与所有信号的一致有界性.与传统方法的对比仿真验证了该设计方法的可行性与优越性.

关键词: 自适应动态规划反演法全状态受限导引控制一体化

Integrated Guidance and Control Design Using ADP and Backstepping with Full-state Constraints

WU Xiang, LIU Chunsheng, SUN Jingliang

College of Automation, Nanjing University of Aeronautics and Astronautics, Nanjing 211100, China

Abstract: In terms of the state constraint and nonlinear optimality problem in the integrated guidance and control(IGC)design, a novel IGC design that considers full-state constraints is proposed by combining backstepping and adaptive dynamic programming(ADP). In the first step, a strict feedback system with state constraints is converted into one with no state constraints through coordinate conversion. Then the feed-forward controller design and feedback controller design are combined. The ADP technology is used to solve the nonlinear HJB equation online. Lastly, Lyapunov theory is employed to demonstrate that the closed-loop system is stable and all the signals are bounded. The contrastive simulation results demonstrate the effectiveness and the superiority of the proposed algorithm.

Keywords: adaptive dynamic programming (ADP) backstepping full-state constraints IGC(integrated guidance and control) design

0 引言

导弹的导引控制一体化设计是为了提升导弹的整体性能而提出的，区别于以往独立设计导弹的每一个子系统的新型设计方法.自20世纪80年代Williams首次在文[1]中提出导引控制一体化的设计概念以来，经过国内外专家学者的不懈努力，在控制方法上已取得了一定的研究成果，主要有滑模变结构控制^[2-3]、自适应控制^[4-5]、最优控制^[6-7]及动态面控制^[9-10]等，这些方法各具有自身的优点与局限性.文[11]对近年来导引控制一体化技术的发展作了全方位的阐述，并重点对鲁棒设计问题、预定性能设计等问题进行研究.在导引控制一体化设计中，系统各状态变量的受限处理以及系统整体性能的优化是值得重点考虑的问题，也是本文的主要研究内容.

在现实世界里，导弹飞行时的攻角、俯仰角、俯仰角速率等物理量必须被严格限制在一定范围内，才能保证飞行的稳定性与良好的制导效果.针对状态受限问题，较为传统的处理方法为障碍李亚普诺夫函数法^[12-14]，然而此方法往往与反演法相结合，以便将障碍李亚普诺夫函数运用至反演法的每一步设计中，而反演法所需要的下三角型结构一定程度上限制了这一方法的使用.同时，在传统处理方法中，初始状态的受限状况未能直接在障碍李亚普诺夫函数中体现，这也是此方法的争议所在.文[15]对上述传统方法进行改进，提出了积分李亚普诺夫函数法，巧妙解决了初始状态的受限问题.文[16]首次通过引入光滑有界可导的双曲正切函数逼近受限状态变量以实现状态受限控制，所应用的系统也不再局限于严格反馈系统.以上，文[12-16]解决了对称型状态受限问题(状态变量的界限绝对值相同，符号相反)，对于非对称型状态受限问题则无法处理.对此，文[17]提出了坐标变换的处理方法，将状态受限的变量映射为状态不受限的变量进行处理，在处理非对称状态受限的同时也避免了反演法每一步都要引入障碍李亚普诺夫函数的问题.然而，就目前的研究成果来看，由于导引控制一体化系统较为复杂，具有高度非线性，在导引控制一体化的设计中对状态变量受限问题的考虑还很少，而且主要考虑了导弹视线角的约束^[18-19].

此外，制导过程中的能源消耗问题也尤为值得关注，对此，文[6-7]采用了线性最优控制的方法解决导弹制导律的设计问题，实现了良好的控制效果，但其主要解决线性最优问题，因此大大限制了此方法的应用.文[8]针对非线性制导模型，采用了Bang-Bang控制与多模型自适应控制相结合的思想，并通过遗传算法优化切换时间.近年来，自适应动态规划(ADP)解决非线性HJB方程的技术方法不断发展，其运用在线迭代的思想逼近最优解，具有自学习与优化能力，同时能够有效避免传统求解方法的“维数灾”现象. ADP技术最早由Werbos在文[20]中提出，通过构造函数逼近结构估计代价函数，按时间正向求解动态规划问题，取得了良好的控制效果，引起了广泛关注.而后许多与ADP相关的研究工作在文[21-25]中开展，ADP的算法得到了不断优化，结构也在不断完善.文[26-27]将ADP技术与反演控制相结合应用于严格反馈非线性系统，拓宽了ADP的应用.鉴于ADP技术在处理非线性最优问题方面的优势，其在航空航天方面得到了广泛应用.文[28]系统介绍了ADP算法的理论研究进展及其在航空航天领域的应用，着重阐述了ADP技术在导弹制导律方面的优化设计方法，并对ADP技术在航空航天领域的研究进行展望.然而，由于导引控制一体化模型的复杂性，鲜有将ADP处理非线性问题的方法应用于导引控制一体化的设计，因而，导引控制一体化设计的非线性最优性问题亟待解决.

受上述研究工作的启发，本文对全状态受限的导引控制一体化设计进行研究.本文的主要贡献有：

1) 首次将ADP处理非线性最优问题的技术应用于导引控制一体化设计中，为导引控制一体化这一非线性复杂模型的最优化设计问题提供了新的解决方法.

2) 与文[12-15]相比，本文采用了较为新颖的坐标转换处理状态受限的方法，首次对非对称型全状态受限导引控制一体化设计问题进行研究，设计出新型一体化控制器，确保在全状态受限下的系统性能最优性与闭环稳定性.

1 问题描述 1.1 系统描述

首先，系统描述如下

(1)

其中，为n维系统状态列向量，u为系统输入，y为系统输出，f_i(x_i)∈R，g_i(x_i)∈R，i=1，2，…，n为已知连续函数.本文的控制目标是设计一个控制输入u，使得输出y能够跟踪一个预期的输出y_d，并且保证所有系统状态在集合Ω_{x_i}={x_i：-k_{b_i1}＜x_i＜k_{b_i2}}中，其中k_{b_i1}、k_{b_i2}是已知的正常数

1.2 坐标变换

为了解决系统全状态受限问题，做如下的坐标变换

(2)

由此转换不难得出

对式(2)进行坐标逆变换，得到

(3)

不难得出，原系统(1)可等价为

(4)

其中，，，，

为了便于前馈控制器的设计，本文作如下假设：

假设1： g_i(x_i)的符号已知，且g_i(x_i)≠0，g_i(x_i)∈Ω⊂R.进一步假设g_i(x_i)满足有界性条件：0＜g_minⁱ＜|g_i(x_i)|＜g_maxⁱ，不失一般性地，本文假设g_i(x_i)>0.

假设2： y_d及其对时间的j阶导数y_d^(j)(t)，j=1，…，n满足|y_d|≤A₀，|y_d^(j)|≤A_j，其中A₀、A_j为正常数.

注1

1) 由系统描述可知g(x)已知，故合理假设：g_i(x_i)的符号已知，且g_i(x_i)≠0∈Ω，Ω⊂R.在实际系统中，控制输入的执行机构往往无法将给定的有界输入信号的作用无限放大，因此本文进一步假设输入矩阵g_i(x_i)满足以上有界性条件.

2) 由于预期跟踪信号y_d预先给出且已知，且现实中很多预定跟踪信号如三角函数信号等满足如上条件，因此本文可合理地对y_d作如上假设.

本文的控制器设计思想如框图 1所示.

图 1 控制器结构原理图 Fig.1 Structure of controller

图选项

如图 1所示，一体化控制器由两部分组成，其中前馈控制器由反演法设计，反馈自适应最优控制器通过ADP方法进行设计，并通过设计评价器网络及权值更新律保证了自适应最优控制器的在线学习能力.首先，状态受限的一体化模型通过坐标转换的方法转换为不含受限状态的等价模型；接下来，采用反演控制的方法设计前馈控制器，同时得到误差系统；对于误差系统，运用最优控制理论进行反馈最优控制器的设计，并使用ADP技术解决非线性HJB方程的求解问题，设计评价器神经网络的权值更新律保证了控制器的在线学习能力.整个控制器在保证闭环系统稳定的同时也满足了性能指标的最优性.

2 前馈控制器设计

在此章节，本文采用反演法实现前馈控制器的设计，将系统跟踪问题转化为跟踪误差系统的最优调节问题.本文的反演控制基于以下的坐标变换

(5)

其中，表示前馈虚拟输入，s_id^*表示反馈最优输入，在下一章节设计.

第1步：

结合式(4)和式(5)，不难得到

(6)

其中，.

定义李亚普诺夫函数如下

(7)

结合式(6)，得到式(7)对时间的导数为

(8)

设计前馈控制器s_2d^a如下

(9)

其中，c_i>0，i=1，2，…，n为待设计的参数.

将式(9)代入式(8)，可得

(10)

第i步：

z_i对时间的导数为

(11)

定义李亚普诺夫函数如下

(12)

V_i对时间求导，可得

(13)

设计前馈控制器s_(i+1)d^a如下

(14)

将式(14)代入式(13)，可得

(15)

第n步：

z_n对时间的导数为

(16)

定义李亚普诺夫函数如下

(17)

对V_n求导，可得

(18)

设计前馈控制器u^a如下

(19)

将式(19)代入式(18)，可得

(20)

对式(20)按如下形式整理

(21)

其中，Z=[z₁，z₂，…z_n]^T，c=min(c_i|1≤i≤n).如前所述，系统输入控制U=[s_2d，s_3d，…s_nd，u]^T.设计U=U^a+U^*，其中，由式(9)、式(14)、式(19)设计，反馈最优控制U^*=[s_2d^*，s_3d^*，…, s_nd^*，u^*]^T将在下一章节设计.

注2：通过分析式(21)可知，当系统反馈最优输入U^*=0时，前馈控制器U^a并不能够保证整个系统闭环稳定，因此，本文下一章节将运用最优控制理论，结合自适应动态规划(ADP)的技术方法，设计反馈最优控制稳定如下系统，并保证系统性能指标最优.

(22)

3 反馈最优控制器的设计

由上一章可知，系统转化为

(23)

其中，，X=[x₁，…, x_n]^T，.

定义如下性能指标

(24)

其中，Q(Z)是半正定罚函数，R矩阵是正定对称矩阵.

因此，本章目标是设计最优控制U，能够最小化上述性能指标，同时保证系统闭环稳定.

定义Hamilton函数如下

(25)

其中，▽V(Z)表示V(Z)对Z的偏导数.

由Bellman方程，可得HJB方程如下

(26)

由可得

(27)

将式(27)代入式(26)，可得

(28)

假设3^[26]：

其中，γ>0为待设计的参数.

注3：将最优控制U^*代入闭环系统，则得到的闭环动态系统为有界量，即，其中Θ(Z)为关于状态变量Z的函数.本文选取得到如上假设.

利用神经网络的逼近功能，代价函数可以表示成如下形式

(29)

其中，W_c∈R^L表示理想权值，σ(Z)∈R^L表示评价网络激励函数，ε_c(Z)表示神经网络逼近误差.

式(29)对Z的导数可以表示为

(30)

将式(27)得到的最优控制律用神经网络形式表示如下

(31)

将式(31)代入式(26)的HJB方程，可得

(32)

其中，

评价器神经网络的理想权值W_c提供了评价器神经网络的最优逼近，然而，理想权值是未知的，为此引入评价器神经网络输出的当前估计值，可得

(33)

式(33)对Z的导数为

(34)

当前控制律可表示为

(35)

将式(35)代入HJB方程，得到估计权值下的HJB方程

(36)

其中，e_c表示估计权值产生的HJB方程误差.

定义评价器权值估计误差为

(37)

结合式(32)、式(36)和式(37)，e_c可以表示为

(38)

希望通过设计，使得如下定义的误差最小

(39)

即：

由梯度下降法，得到评价器网络的权值更新律如下

(40)

其中，

式(36)对求导可得

(41)

将式(38)、式(41)代入式(40)，可得神经网络的权值更新律如下

(42)

假设4：不失一般性，本文作如下假设

1) H(Z，S)满足Lipschitz连续，且G(S，X)有界，即存在大于零的常数g_min、g_max，满足：0＜g_min＜＜g_max；

2) 理想的神经网络权值W_c有界，且存在大于零的常数w_max，满足：；

3) 神经网络逼近误差ε_c及其导数▽ε_c有界，即存在大于零的常数b_ε、b_{ε_z}，满足：；

4) 神经网络激励函数σ(Z)及其导数▽σ(Z)有界，即存在常数b_ϕ、b_{ϕ_z}，满足

注4：以上假设均为对神经网络的一般性假设，对其中部分假设说明如下：由于神经网络权值最终收敛至理想权值W_c，因此合理假设理想的神经网络权值W_c有界，可得假设4中的步骤2).当神经网络层数L→∞时，神经网络逼近误差ε_c及其导数▽ε_c趋于0.由极限的定义可得到假设4(3).

定理1：对于式(1)中全状态受限的严格反馈非线性系统，其前馈控制器如式(9)、(14)、(19)设计，其反馈最优控制器如式(35)设计，并且按照式(42)实现神经网络权值更新，则通过选择合适的参数，能够保证闭环系统的所有信号都是有界的，并且能够保证系统输出以最优的方式跟踪指定的参考信号.

4 稳定性证明

选取如下李亚普诺夫函数

(43)

L对时间求导，得到

(44)

结合式(21)，可得

(45)

由假设3，结合杨氏不等式，可得

(46)

对式(46)进行配方运算，可得

(47)

结合式(42)，并考虑到，可得

(48)

其中，根据假设4，本文假设存在常数λ_1min、λ_1max分别为的下界和上界，即：；同时，根据假设4，合理假设：

考虑如下不等式

(49)

其中，φ₁、φ₂是非零常数.

经过简单的数学变换，式(48)可重写为

(50)

其中，令

(51)

(52)

(53)

注5：使用不等式(49)对式(48)进行数学变换的目的是避免与³项的出现，以便于不等式方程的求解.引入常数φ₁、φ₂可以确保⁴的系数为负，这对于闭环系统的稳定性有着重要意义.

将式(51)~(53)，代入式(50)，得到

(54)

因此，当满足如下不等式时，:

(55)

或者

(56)

5 仿真与分析

如图 2所示，考虑导弹在二维平面内的运动，其中OXY为导弹和目标运动平面内的一个惯性坐标系，V、α、θ、γ分别表示速度、攻角、弹道倾角和俯仰角，下标M、T分别表示导弹和目标的简写，r、q分别表示导弹和目标之间的距离、视线角，ω_z、δ_z分别表示飞机的俯仰角，舵偏角.并假设导弹和目标机动时只改变速度方向而不改变速度大小.

图 2 平面内的相对运动 Fig.2 Engagement geometry

图选项

导弹—目标的运动学与动力学方程如下：

(57)

记，经过一系列计算与简化，可得到如下导引控制一体化模型：

(58)

定义，则一体化模型可以重写为

(59)

其中，

(60)

(61)

导弹模型的参数如表 1所示^[29].

表 1 导弹模型参数表 Tab.1 Parameters of missile model

参数	数值
V_M	3.5 Ma
δ_z(0)	0 rad
q(0)	0 rad
r(0)	1 500 m
	0.348 7
	-17.801
	-31.267
α(0)	π/18 rad
V_T	900 m/s
θ_T(0)	π/18 rad
ω_z(0)	0 rad/s
	0.068
	-0.274 1

表选项

本文采用平行接近的制导方法，控制对象为视线角速率(LOS angular rate)，同时满足3个状态变量在给定的限制范围内波动.

仿真参数的选取：c₁=0.57，c₂=11.5，c₃=4.5，激励函数选取为：z₂z₃]^T，罚函数矩阵，R为单位矩阵，神经网络权值的初值给定为：W₀=[0, 0, 0, 0, 0, 0, 0, 0, 0]^T，状态受限的要求为：-0.2 rad＜α < 0.2 rad，-0.3 rad/s＜ω_z < 0.2 rad/s.通过对比仿真验证状态受限的有效性，对比仿真时保持c₁、c₂、c₃不变，仿真实验图如图 3所示.

图 3 相对距离曲线 Fig.3 Curve of relative distance

图选项

仿真分析：从图 3至图 5可见，导弹在10.61 s时完成对机动目标的拦截，脱靶量低于0.05 m，且一体化控制器使得视线角速率与最终趋于0，较好地实现了制导的目的.从图 6、图 7可见，未加入状态受限控制器时，攻角响应的最大幅值达到了0.5 rad，俯仰角速率的最大幅值更是高达2 rad/s，而加入状态受限控制器后能够有效地将它们的响应曲线幅值限定给定范围内(-0.2 rad＜α < 0.2 rad，-0.3 rad/s＜ω_z < 0.3 rad/s)，显著降低了攻角与俯仰角速率的上限值，使得导弹攻角与俯仰角的变化较为平缓，保证了导弹飞行的姿态稳定性，但同时也由于引入了状态受限控制器，使得状态的收敛性能受到一定的影响. 图 8为导弹舵偏角的输入曲线，由前馈控制输入与反馈控制输入相结合得到，幅值较小且变化平缓.从图 6~8可见系统的状态变量与输入的响应最终趋于较为稳定的状态，达到了良好的控制效果.由于制导末端，导弹与目标之间的距离急剧降低，原导引控制一体化模型所呈现的物理关系不再满足，因此视线角速率、攻角，俯仰角速率等响应曲线会出现在末端出现极短的发散现象，但并不会影响制导的精度. 图 9是神经网络权值变化曲线，最终收敛至最优权值.

图 4 视线角速率曲线 Fig.4 Curve of LOS angular rate

图选项

图 5

曲线 Fig.5 Curve of

图选项

图 6 攻角曲线 Fig.6 Curve of attacking angle

图选项

图 7 俯仰角速率曲线 Fig.7 Curve of pitching angular rate

图选项

图 8 舵偏角曲线 Fig.8 Curve of rudder angle

图选项

图 9 评价器神经网络权值曲线 Fig.9 Critic network weight

图选项

另外，对于全状态受限问题的处理方法，将本文的方法记为方法1，将文[12]所提出的传统的障碍李亚普诺夫函数方法记为方法2，并分别对由以上两种方法设计出的一体化控制律进行对比仿真.仿真均采用本文所给的导引控制一体化模型，保证对比仿真的一体化模型的各参数相同.状态受限的要求均为：-0.2 rad＜α < 0.2 rad，-0.3 rad/s＜ω_z < 0.3 rad/s，修改初始条件ω_z(0)=(π/18)rad/s，其余仿真数据参见表格1，调节反馈增益的参数使得制导完成时间相同. 图 10~14是部分仿真结果对比图.

图 10 相对距离对比曲线 Fig.10 Comparison of relative distance

图选项

图 11 攻角对比曲线 Fig.11 Comparison of attacking angle

图选项

图 12 俯仰角速率对比曲线 Fig.12 Comparison of pitching angular rate

图选项

图 13 舵偏角对比曲线 Fig.13 Comparison of rudder angle

图选项

图 14 能耗对比曲线 Fig.14 Comparison of energy consumption

图选项

图 10~12表明两种设计方法均能够在10.61 s完成制导，且都能有效地实现状态受限的控制要求. 图 11~13分别从导弹攻角、俯仰角速率以及舵偏角3个物理量比较两种控制器的控制效果. 图 11为攻角的对比曲线，从图中可以看出两条攻角曲线变化趋势相似，且曲线都较为平缓，控制效果良好；图 12为俯仰角速率对比曲线，从局部放大图可见在制导最初阶段，方法1得出的俯仰角速率曲线，较之方法2，振荡更为平缓，从而能够更好地保证导弹俯仰角的姿态稳定；图 13为舵偏角的对比曲线，同样，较之方法2，方法1避免了制导初期舵偏角的剧烈振荡现象.从理论上分析，方法1考虑了系统性能的最优性，如式(24)所示，将系统的状态变量与输入纳入了性能指标之中，因此攻角，俯仰角速率与舵偏角的响应曲线得到了一定的优化，曲线振荡较为平缓. 图 14则从能源消耗的角度进行比较，能源消耗与这一指标有密切关联.从图 14中可见方法1较之方法2确实能够减少能源消耗，体现了一体化设计的最优性.此外，方法1还可以用于非对称型状态受限的设计，而方法2则不能解决这一问题.

6 结论

本文研究了全状态非对称受限条件下导引控制一体化设计问题，并将ADP技术与一体化设计相结合.首先将状态受限的严格反馈非线性系统通过坐标变换转化为非状态受限的系统.然后，采用前馈反演控制与反馈最优控制相结合的设计思路，前馈控制器通过反演法设计，反馈最优控制器通过ADP设计，同时保证了闭环系统的稳定性与最优性.对比仿真结果表明，该方法能够确保导弹以较高的精度完成对机动目标的拦截，同时实现对状态受限的控制.与传统的障碍李亚普诺夫函数法相比，此方法在导弹的姿态稳定性控制和能源消耗方面具有明显的优势.

参考文献

[1]	Williams D E, Richman J, Friedland B. Design of an integrated strapdown guidance and control system for a tactical missile[J]. AIAA Paper, 1983, 2169: 1983.

[2]	Yamasaki T, Balakrishnan S, Takano H. Integrated guidance and autopilot design for a chasing UAV via high-order sliding modes[J]. Journal of the Franklin Institute, 2012, 349(2): 531–558. DOI:10.1016/j.jfranklin.2011.08.004

[3]	Kumar S R, Rao S, Ghose D. Sliding-mode guidance and control for all-aspect interceptors with terminal angle constraints[J]. Journal of Guidance, Control and Dynamics, 2012, 35(4): 1230–1246. DOI:10.2514/1.55242

[4]	Fiorentini L, Serrani A, Bolender M A, et al. Nonlinear robust adaptive control of flexible air-breathing hypersonic vehicles[J]. Journal of Guidance, Control and Dynamics, 2009, 32(2): 402–417. DOI:10.2514/1.39210

[5]	Serrani A, Zinnecker A M, Fiorentini L, et al. Integrated adaptive guidance and control of constrained nonlinear air-breathing hypersonic vehicle models[C]//American Control Conference. Piscataway, NJ, USA: IEEE, 2009: 3172-3177.

[6]	Hughes T L, Mc Farland M B. Integrated missile guidance law and autopilot design using linear optimal control[C]//AIAA Guidance, Navigation, and Control Conference and Exhibit. Piscatawayr, NJ, USA: IEEE, 2000: 1-7.

[7]	Levy M, Shima T, Gutman S. Linear quadratic integrated versus separated autopilot-guidance design[J]. Journal of Guidance Control & Dynamics, 2015, 36(6): 1722–1730.

[8]	胡翌玮, 蔡远利. 主动防御的自适应最优协同制导律[J]. 信息与控制, 2018, 47(5): 606–614. Hu Y W, Cai Y L. Adaptive optimal cooperative guidance law for active defense[J]. Information and Control, 2018, 47(5): 606–614.

[9]	梁晓玲.控制受限的导引与控制一体化设计[D].哈尔滨: 哈尔滨工业大学2015. Liang X L. The integrated design method of guidance and control with state constraints[D]. Harbin: Harbin Institute of Technology, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10213-1015957451.htm

[10]	Qu P P, Wang S S, Zhou D. Three-dimensional guidance law accounting for dynamics of missile autopilot[C]//Proceedings 2013 International Conference on Mechatronic Sciences, Electric Engineering and Computer (MEC). Piscataway, NJ, USA: IEEE, 2013: 2960-2965.

[11]	宋海涛, 张涛, 张国良. 飞行器制导控制一体化技术[M]. 北京: 国防工业出版社, 2017: 31-37. Song H T, Zhang T, Zhang G L. Integrated guidance and control technology for aircraft[M]. Beijing: National Defense Industry Press, 2017: 31-37.

[12]	Tee K P, Ge S S. Control of nonlinear systems with full state constraint using a barrier Lyapunov function[C]//Proceedings of the 48th IEEE Conference, on Decision and Control. Piscataway, NJ, USA: IEEE, 2009: 8618-8623

[13]	Liu Y J, Li J, Tong S, et al. Neural network control-based adaptive learning design for nonlinear systems with full-state constraints[J]. IEEE Transactions on Neural Networks & Learning Systems, 2016, 27(7): 1562–1571.

[14]	Liu Y J, Tong S. Barrier Lyapunov functions-based adaptive control for a class of nonlinear pure-feedback systems with full state constraints[J]. Automatica, 2016, 64(C): 70–75.

[15]	Kim B S, Yoo S J. Approximation-based adaptive control of uncertain non-linear pure-feedback systems with full state constraints[J]. Control Theory & Applications Iet, 2014, 8(17): 2070–2081.

[16]	Sun J L, Liu C S. Disturbance observer-based robust missile autopilot design with full-state constraints via adaptive dynamic programming[J]. Journal of the Franklin Institute, 2018, 355(5): 2344–2368. DOI:10.1016/j.jfranklin.2018.01.005

[17]	Zhang T P, Xia M Z, Yi Y. Adaptive neural dynamic surface control of strict-feedback nonlinear systems with full state constraints and unmodeled dynamics[J]. Automatica, 2017, 47(8): 232–239.

[18]	赵斌, 周军, 卢晓东, 等. 考虑终端角度约束的自适应积分滑模制导律[J]. 控制与决策, 2017, 32(11): 1966–1972. Zhao B, Zhou J, Lu X D, et al. Adaptive integral sliding mode guidance law considering impact angle constraint[J]. Control and Decision, 2017, 32(11): 1966–1972.

[19]	赵斌, 周军. 考虑视场角约束的捷联导引与控制一体化设计[J]. 宇航学报, 2018, 39(4): 392–400. Zhao B, Zhou J. Adaptive integral sliding mode guidance law considering impact angel constraint[J]. Journal of Astronautics, 2018, 39(4): 392–400.

[20]	Werbos P. Advanced forecasting methods for global crisis warning and models of intelligence[J]. General Systems, 1977, 22: 25–38.

[21]	Lee J Y, Park J B, Choi Y H. Approximate dynamic programming for continuous-time linear quadratic regulator problems:Relaxation of known input-coupling matrix assumption[J]. IET Control Theory & Applications, 2012, 6(13): 2063–2075.

[22]	Liu D, Yang X, Wang D, et al. Reinforcement-learning-based robust controller design for continuous-time uncertain nonlinear systems subject to input constraints[J]. IEEE Transactions on Cybernetics, 2015, 45(7): 1372–1385. DOI:10.1109/TCYB.2015.2417170

[23]	Wang D, Liu D, Zhang Q, et al. Data-based adaptive critic designs for nonlinear robust optimal control with uncertain dynamics[J]. IEEE Transactions on Systems Man & Cybernetics-systems, 2016, 46(11): 1544–1555.

[24]	Gao W, Jiang Z P. Adaptive dynamic programming and adaptive optimal output regulation of linear systems[J]. IEEE Transactions on Automatic Control, 2016, 61(12): 4164–4169. DOI:10.1109/TAC.2016.2548662

[25]	Zhang J, Liang H, Feng T. Optimal control for nonlinear continuous systems by adaptive dynamic programming based on fuzzy basis functions[J]. Applied Mathematical Modelling, 2016, 40(13/14): 6766–6774.

[26]	Sun K K, Li Y, Tong S C. Fuzzy adaptive output feedback optimal control design for strict-feedback nonlinear systems[J]. IEEE Transactions on Systems Man & Cybernetics Systems, 2017, 47(1): 33–44.

[27]	Sun J L, Liu C S, Zhao X. Backstepping-based zero-sum differential games for missile-target interception systems with input and output constraints[J]. IET Control Theory & Applications, 2018, 12(2): 243–253.

[28]	孙景亮, 刘春生. 基于自适应动态规划的导弹制导律研究综述[J]. 自动化学报, 2017, 43(7): 1101–1113. Sun J L, Liu C S. An overview on the adaptive dynamic programming based missile guidance law[J]. Acta Automatica Sina, 2017, 43(7): 1101–1113.

[29]	张保群, 宋申民. 基于自适应滑模控制的导弹制导与控制一体化反演设计[J]. 弹箭与制导学报, 2009, 29(5): 31–35. Zhang B Q, Song S M. Integrated playback design of missile guidance and control based on adaptive sliding-mode control[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2009, 29(5): 31–35. DOI:10.3969/j.issn.1673-9728.2009.05.008

http://dx.doi.org/10.13976/j.cnki.xk.2019.8419
中国科学院主管，中国科学院沈阳自动化研究所、中国自动化学会共同主办。

文章信息

吴翔, 刘春生, 孙景亮

WU Xiang, LIU Chunsheng, SUN Jingliang

基于ADP的导引控制一体化全状态受限反演控制

Integrated Guidance and Control Design Using ADP and Backstepping with Full-state Constraints

信息与控制, 2019, 48(3): 293-301, 309.

Information and Control, 2019, 48(3): 293-301, 309.

http://dx.doi.org/10.13976/j.cnki.xk.2019.8419

文章历史

收稿/录用/修回: 2018-08-23/2018-12-10/2019-01-12

文章信息

文章历史

工作空间