0 引言
导弹的导引控制一体化设计是为了提升导弹的整体性能而提出的,区别于以往独立设计导弹的每一个子系统的新型设计方法.自20世纪80年代Williams首次在文[1]中提出导引控制一体化的设计概念以来,经过国内外专家学者的不懈努力,在控制方法上已取得了一定的研究成果,主要有滑模变结构控制[2-3]、自适应控制[4-5]、最优控制[6-7]及动态面控制[9-10]等,这些方法各具有自身的优点与局限性.文[11]对近年来导引控制一体化技术的发展作了全方位的阐述,并重点对鲁棒设计问题、预定性能设计等问题进行研究.在导引控制一体化设计中,系统各状态变量的受限处理以及系统整体性能的优化是值得重点考虑的问题,也是本文的主要研究内容.
在现实世界里,导弹飞行时的攻角、俯仰角、俯仰角速率等物理量必须被严格限制在一定范围内,才能保证飞行的稳定性与良好的制导效果.针对状态受限问题,较为传统的处理方法为障碍李亚普诺夫函数法[12-14],然而此方法往往与反演法相结合,以便将障碍李亚普诺夫函数运用至反演法的每一步设计中,而反演法所需要的下三角型结构一定程度上限制了这一方法的使用.同时,在传统处理方法中,初始状态的受限状况未能直接在障碍李亚普诺夫函数中体现,这也是此方法的争议所在.文[15]对上述传统方法进行改进,提出了积分李亚普诺夫函数法,巧妙解决了初始状态的受限问题.文[16]首次通过引入光滑有界可导的双曲正切函数逼近受限状态变量以实现状态受限控制,所应用的系统也不再局限于严格反馈系统.以上,文[12-16]解决了对称型状态受限问题(状态变量的界限绝对值相同,符号相反),对于非对称型状态受限问题则无法处理.对此,文[17]提出了坐标变换的处理方法,将状态受限的变量映射为状态不受限的变量进行处理,在处理非对称状态受限的同时也避免了反演法每一步都要引入障碍李亚普诺夫函数的问题.然而,就目前的研究成果来看,由于导引控制一体化系统较为复杂,具有高度非线性,在导引控制一体化的设计中对状态变量受限问题的考虑还很少,而且主要考虑了导弹视线角的约束[18-19].
此外,制导过程中的能源消耗问题也尤为值得关注,对此,文[6-7]采用了线性最优控制的方法解决导弹制导律的设计问题,实现了良好的控制效果,但其主要解决线性最优问题,因此大大限制了此方法的应用.文[8]针对非线性制导模型,采用了Bang-Bang控制与多模型自适应控制相结合的思想,并通过遗传算法优化切换时间.近年来,自适应动态规划(ADP)解决非线性HJB方程的技术方法不断发展,其运用在线迭代的思想逼近最优解,具有自学习与优化能力,同时能够有效避免传统求解方法的“维数灾”现象. ADP技术最早由Werbos在文[20]中提出,通过构造函数逼近结构估计代价函数,按时间正向求解动态规划问题,取得了良好的控制效果,引起了广泛关注.而后许多与ADP相关的研究工作在文[21-25]中开展,ADP的算法得到了不断优化,结构也在不断完善.文[26-27]将ADP技术与反演控制相结合应用于严格反馈非线性系统,拓宽了ADP的应用.鉴于ADP技术在处理非线性最优问题方面的优势,其在航空航天方面得到了广泛应用.文[28]系统介绍了ADP算法的理论研究进展及其在航空航天领域的应用,着重阐述了ADP技术在导弹制导律方面的优化设计方法,并对ADP技术在航空航天领域的研究进行展望.然而,由于导引控制一体化模型的复杂性,鲜有将ADP处理非线性问题的方法应用于导引控制一体化的设计,因而,导引控制一体化设计的非线性最优性问题亟待解决.
受上述研究工作的启发,本文对全状态受限的导引控制一体化设计进行研究.本文的主要贡献有:
1) 首次将ADP处理非线性最优问题的技术应用于导引控制一体化设计中,为导引控制一体化这一非线性复杂模型的最优化设计问题提供了新的解决方法.
2) 与文[12-15]相比,本文采用了较为新颖的坐标转换处理状态受限的方法,首次对非对称型全状态受限导引控制一体化设计问题进行研究,设计出新型一体化控制器,确保在全状态受限下的系统性能最优性与闭环稳定性.
1 问题描述 1.1 系统描述首先,系统描述如下
(1) |
其中,
为了解决系统全状态受限问题,做如下的坐标变换
(2) |
由此转换不难得出
对式(2)进行坐标逆变换,得到
(3) |
不难得出,原系统(1)可等价为
(4) |
其中,
为了便于前馈控制器的设计,本文作如下假设:
假设1: gi(xi)的符号已知,且gi(xi)≠0,gi(xi)∈Ω⊂R.进一步假设gi(xi)满足有界性条件:0<gmini<|gi(xi)|<gmaxi,不失一般性地,本文假设gi(xi)>0.
假设2: yd及其对时间的j阶导数yd(j)(t),j=1,…,n满足|yd|≤A0,|yd(j)|≤Aj,其中A0、Aj为正常数.
注1
1) 由系统描述可知g(x)已知,故合理假设:gi(xi)的符号已知,且gi(xi)≠0∈Ω,Ω⊂R.在实际系统中,控制输入的执行机构往往无法将给定的有界输入信号的作用无限放大,因此本文进一步假设输入矩阵gi(xi)满足以上有界性条件.
2) 由于预期跟踪信号yd预先给出且已知,且现实中很多预定跟踪信号如三角函数信号等满足如上条件,因此本文可合理地对yd作如上假设.
本文的控制器设计思想如框图 1所示.
如图 1所示,一体化控制器由两部分组成,其中前馈控制器由反演法设计,反馈自适应最优控制器通过ADP方法进行设计,并通过设计评价器网络及权值更新律保证了自适应最优控制器的在线学习能力.首先,状态受限的一体化模型通过坐标转换的方法转换为不含受限状态的等价模型;接下来,采用反演控制的方法设计前馈控制器,同时得到误差系统;对于误差系统,运用最优控制理论进行反馈最优控制器的设计,并使用ADP技术解决非线性HJB方程的求解问题,设计评价器神经网络的权值更新律保证了控制器的在线学习能力.整个控制器在保证闭环系统稳定的同时也满足了性能指标的最优性.
2 前馈控制器设计在此章节,本文采用反演法实现前馈控制器的设计,将系统跟踪问题转化为跟踪误差系统的最优调节问题.本文的反演控制基于以下的坐标变换
(5) |
其中,
第1步:
结合式(4)和式(5),不难得到
(6) |
其中,
定义李亚普诺夫函数如下
(7) |
结合式(6),得到式(7)对时间的导数为
(8) |
设计前馈控制器s2da如下
(9) |
其中,ci>0,i=1,2,…,n为待设计的参数.
将式(9)代入式(8),可得
(10) |
第i步:
zi对时间的导数为
(11) |
定义李亚普诺夫函数如下
(12) |
Vi对时间求导,可得
(13) |
设计前馈控制器s(i+1)da如下
(14) |
将式(14)代入式(13),可得
(15) |
第n步:
zn对时间的导数为
(16) |
定义李亚普诺夫函数如下
(17) |
对Vn求导,可得
(18) |
设计前馈控制器ua如下
(19) |
将式(19)代入式(18),可得
(20) |
对式(20)按如下形式整理
(21) |
其中,Z=[z1,z2,…zn]T,c=min(ci|1≤i≤n).如前所述,系统输入控制U=[s2d,s3d,…snd,u]T.设计U=Ua+U*,其中,
注2:通过分析式(21)可知,当系统反馈最优输入U*=0时,前馈控制器Ua并不能够保证整个系统闭环稳定,因此,本文下一章节将运用最优控制理论,结合自适应动态规划(ADP)的技术方法,设计反馈最优控制稳定如下系统,并保证系统性能指标最优.
(22) |
由上一章可知,系统转化为
(23) |
其中,
定义如下性能指标
(24) |
其中,Q(Z)是半正定罚函数,R矩阵是正定对称矩阵.
因此,本章目标是设计最优控制U,能够最小化上述性能指标,同时保证系统闭环稳定.
定义Hamilton函数如下
(25) |
其中,▽V(Z)表示V(Z)对Z的偏导数.
由Bellman方程,可得HJB方程如下
(26) |
由
(27) |
将式(27)代入式(26),可得
(28) |
假设3[26]:
其中,γ>0为待设计的参数.
注3:将最优控制U*代入闭环系统,则得到的闭环动态系统
利用神经网络的逼近功能,代价函数可以表示成如下形式
(29) |
其中,Wc∈RL表示理想权值,σ(Z)∈RL表示评价网络激励函数,εc(Z)表示神经网络逼近误差.
式(29)对Z的导数可以表示为
(30) |
将式(27)得到的最优控制律用神经网络形式表示如下
(31) |
将式(31)代入式(26)的HJB方程,可得
(32) |
其中,
评价器神经网络的理想权值Wc提供了评价器神经网络的最优逼近,然而,理想权值是未知的,为此引入评价器神经网络输出的当前估计值
(33) |
式(33)对Z的导数为
(34) |
当前控制律
(35) |
将式(35)代入HJB方程,得到估计权值下的HJB方程
(36) |
其中,ec表示估计权值产生的HJB方程误差.
定义评价器权值估计误差为
(37) |
结合式(32)、式(36)和式(37),ec可以表示为
(38) |
希望通过设计
(39) |
即:
由梯度下降法,得到评价器网络的权值更新律如下
(40) |
其中,
式(36)对
(41) |
将式(38)、式(41)代入式(40),可得神经网络的权值更新律如下
(42) |
假设4:不失一般性,本文作如下假设
1) H(Z,S)满足Lipschitz连续,且G(S,X)有界,即存在大于零的常数gmin、gmax,满足:0<gmin<
2) 理想的神经网络权值Wc有界,且存在大于零的常数wmax,满足:
3) 神经网络逼近误差εc及其导数▽εc有界,即存在大于零的常数bε、bεz,满足:
4) 神经网络激励函数σ(Z)及其导数▽σ(Z)有界,即存在常数bϕ、bϕz,满足
注4:以上假设均为对神经网络的一般性假设,对其中部分假设说明如下:由于神经网络权值最终收敛至理想权值Wc,因此合理假设理想的神经网络权值Wc有界,可得假设4中的步骤2).当神经网络层数L→∞时,神经网络逼近误差εc及其导数▽εc趋于0.由极限的定义可得到假设4(3).
定理1:对于式(1)中全状态受限的严格反馈非线性系统,其前馈控制器如式(9)、(14)、(19)设计,其反馈最优控制器如式(35)设计,并且按照式(42)实现神经网络权值更新,则通过选择合适的参数,能够保证闭环系统的所有信号都是有界的,并且能够保证系统输出以最优的方式跟踪指定的参考信号.
4 稳定性证明选取如下李亚普诺夫函数
(43) |
L对时间求导,得到
(44) |
结合式(21),可得
(45) |
由假设3,结合杨氏不等式,可得
(46) |
对式(46)进行配方运算,可得
(47) |
结合式(42),并考虑到
(48) |
其中,
考虑如下不等式
(49) |
其中,φ1、φ2是非零常数.
经过简单的数学变换,式(48)可重写为
(50) |
其中,令
(51) |
(52) |
(53) |
注5:使用不等式(49)对式(48)进行数学变换的目的是避免
将式(51)~(53),代入式(50),得到
(54) |
因此,当满足如下不等式时,
(55) |
或者
(56) |
如图 2所示,考虑导弹在二维平面内的运动,其中OXY为导弹和目标运动平面内的一个惯性坐标系,V、α、θ、γ分别表示速度、攻角、弹道倾角和俯仰角,下标M、T分别表示导弹和目标的简写,r、q分别表示导弹和目标之间的距离、视线角,ωz、δz分别表示飞机的俯仰角,舵偏角.并假设导弹和目标机动时只改变速度方向而不改变速度大小.
导弹—目标的运动学与动力学方程如下:
(57) |
记
(58) |
定义
(59) |
其中,
(60) |
(61) |
参数 | 数值 |
VM | 3.5 Ma |
δz(0) | 0 rad |
q(0) | 0 rad |
r(0) | 1 500 m |
0.348 7 | |
-17.801 | |
-31.267 | |
α(0) | π/18 rad |
VT | 900 m/s |
θT(0) | π/18 rad |
ωz(0) | 0 rad/s |
0.068 | |
-0.274 1 |
本文采用平行接近的制导方法,控制对象为视线角速率(LOS angular rate),同时满足3个状态变量在给定的限制范围内波动.
仿真参数的选取:c1=0.57,c2=11.5,c3=4.5,激励函数选取为:
仿真分析:从图 3至图 5可见,导弹在10.61 s时完成对机动目标的拦截,脱靶量低于0.05 m,且一体化控制器使得视线角速率与
另外,对于全状态受限问题的处理方法,将本文的方法记为方法1,将文[12]所提出的传统的障碍李亚普诺夫函数方法记为方法2,并分别对由以上两种方法设计出的一体化控制律进行对比仿真.仿真均采用本文所给的导引控制一体化模型,保证对比仿真的一体化模型的各参数相同.状态受限的要求均为:-0.2 rad<α < 0.2 rad,-0.3 rad/s<ωz < 0.3 rad/s,修改初始条件ωz(0)=(π/18)rad/s,其余仿真数据参见表格1,调节反馈增益的参数使得制导完成时间相同. 图 10~14是部分仿真结果对比图.
图 10~12表明两种设计方法均能够在10.61 s完成制导,且都能有效地实现状态受限的控制要求. 图 11~13分别从导弹攻角、俯仰角速率以及舵偏角3个物理量比较两种控制器的控制效果. 图 11为攻角的对比曲线,从图中可以看出两条攻角曲线变化趋势相似,且曲线都较为平缓,控制效果良好;图 12为俯仰角速率对比曲线,从局部放大图可见在制导最初阶段,方法1得出的俯仰角速率曲线,较之方法2,振荡更为平缓,从而能够更好地保证导弹俯仰角的姿态稳定;图 13为舵偏角的对比曲线,同样,较之方法2,方法1避免了制导初期舵偏角的剧烈振荡现象.从理论上分析,方法1考虑了系统性能的最优性,如式(24)所示,将系统的状态变量与输入纳入了性能指标之中,因此攻角,俯仰角速率与舵偏角的响应曲线得到了一定的优化,曲线振荡较为平缓. 图 14则从能源消耗的角度进行比较,能源消耗与
本文研究了全状态非对称受限条件下导引控制一体化设计问题,并将ADP技术与一体化设计相结合.首先将状态受限的严格反馈非线性系统通过坐标变换转化为非状态受限的系统.然后,采用前馈反演控制与反馈最优控制相结合的设计思路,前馈控制器通过反演法设计,反馈最优控制器通过ADP设计,同时保证了闭环系统的稳定性与最优性.对比仿真结果表明,该方法能够确保导弹以较高的精度完成对机动目标的拦截,同时实现对状态受限的控制.与传统的障碍李亚普诺夫函数法相比,此方法在导弹的姿态稳定性控制和能源消耗方面具有明显的优势.
[1] | Williams D E, Richman J, Friedland B. Design of an integrated strapdown guidance and control system for a tactical missile[J]. AIAA Paper, 1983, 2169: 1983. |
[2] | Yamasaki T, Balakrishnan S, Takano H. Integrated guidance and autopilot design for a chasing UAV via high-order sliding modes[J]. Journal of the Franklin Institute, 2012, 349(2): 531–558. DOI:10.1016/j.jfranklin.2011.08.004 |
[3] | Kumar S R, Rao S, Ghose D. Sliding-mode guidance and control for all-aspect interceptors with terminal angle constraints[J]. Journal of Guidance, Control and Dynamics, 2012, 35(4): 1230–1246. DOI:10.2514/1.55242 |
[4] | Fiorentini L, Serrani A, Bolender M A, et al. Nonlinear robust adaptive control of flexible air-breathing hypersonic vehicles[J]. Journal of Guidance, Control and Dynamics, 2009, 32(2): 402–417. DOI:10.2514/1.39210 |
[5] | Serrani A, Zinnecker A M, Fiorentini L, et al. Integrated adaptive guidance and control of constrained nonlinear air-breathing hypersonic vehicle models[C]//American Control Conference. Piscataway, NJ, USA: IEEE, 2009: 3172-3177. |
[6] | Hughes T L, Mc Farland M B. Integrated missile guidance law and autopilot design using linear optimal control[C]//AIAA Guidance, Navigation, and Control Conference and Exhibit. Piscatawayr, NJ, USA: IEEE, 2000: 1-7. |
[7] | Levy M, Shima T, Gutman S. Linear quadratic integrated versus separated autopilot-guidance design[J]. Journal of Guidance Control & Dynamics, 2015, 36(6): 1722–1730. |
[8] |
胡翌玮, 蔡远利.
主动防御的自适应最优协同制导律[J]. 信息与控制, 2018, 47(5): 606–614.
Hu Y W, Cai Y L. Adaptive optimal cooperative guidance law for active defense[J]. Information and Control, 2018, 47(5): 606–614. |
[9] |
梁晓玲.控制受限的导引与控制一体化设计[D].哈尔滨: 哈尔滨工业大学2015. Liang X L. The integrated design method of guidance and control with state constraints[D]. Harbin: Harbin Institute of Technology, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10213-1015957451.htm |
[10] | Qu P P, Wang S S, Zhou D. Three-dimensional guidance law accounting for dynamics of missile autopilot[C]//Proceedings 2013 International Conference on Mechatronic Sciences, Electric Engineering and Computer (MEC). Piscataway, NJ, USA: IEEE, 2013: 2960-2965. |
[11] |
宋海涛, 张涛, 张国良.
飞行器制导控制一体化技术[M]. 北京: 国防工业出版社, 2017: 31-37.
Song H T, Zhang T, Zhang G L. Integrated guidance and control technology for aircraft[M]. Beijing: National Defense Industry Press, 2017: 31-37. |
[12] | Tee K P, Ge S S. Control of nonlinear systems with full state constraint using a barrier Lyapunov function[C]//Proceedings of the 48th IEEE Conference, on Decision and Control. Piscataway, NJ, USA: IEEE, 2009: 8618-8623 |
[13] | Liu Y J, Li J, Tong S, et al. Neural network control-based adaptive learning design for nonlinear systems with full-state constraints[J]. IEEE Transactions on Neural Networks & Learning Systems, 2016, 27(7): 1562–1571. |
[14] | Liu Y J, Tong S. Barrier Lyapunov functions-based adaptive control for a class of nonlinear pure-feedback systems with full state constraints[J]. Automatica, 2016, 64(C): 70–75. |
[15] | Kim B S, Yoo S J. Approximation-based adaptive control of uncertain non-linear pure-feedback systems with full state constraints[J]. Control Theory & Applications Iet, 2014, 8(17): 2070–2081. |
[16] | Sun J L, Liu C S. Disturbance observer-based robust missile autopilot design with full-state constraints via adaptive dynamic programming[J]. Journal of the Franklin Institute, 2018, 355(5): 2344–2368. DOI:10.1016/j.jfranklin.2018.01.005 |
[17] | Zhang T P, Xia M Z, Yi Y. Adaptive neural dynamic surface control of strict-feedback nonlinear systems with full state constraints and unmodeled dynamics[J]. Automatica, 2017, 47(8): 232–239. |
[18] |
赵斌, 周军, 卢晓东, 等.
考虑终端角度约束的自适应积分滑模制导律[J]. 控制与决策, 2017, 32(11): 1966–1972.
Zhao B, Zhou J, Lu X D, et al. Adaptive integral sliding mode guidance law considering impact angle constraint[J]. Control and Decision, 2017, 32(11): 1966–1972. |
[19] |
赵斌, 周军.
考虑视场角约束的捷联导引与控制一体化设计[J]. 宇航学报, 2018, 39(4): 392–400.
Zhao B, Zhou J. Adaptive integral sliding mode guidance law considering impact angel constraint[J]. Journal of Astronautics, 2018, 39(4): 392–400. |
[20] | Werbos P. Advanced forecasting methods for global crisis warning and models of intelligence[J]. General Systems, 1977, 22: 25–38. |
[21] | Lee J Y, Park J B, Choi Y H. Approximate dynamic programming for continuous-time linear quadratic regulator problems:Relaxation of known input-coupling matrix assumption[J]. IET Control Theory & Applications, 2012, 6(13): 2063–2075. |
[22] | Liu D, Yang X, Wang D, et al. Reinforcement-learning-based robust controller design for continuous-time uncertain nonlinear systems subject to input constraints[J]. IEEE Transactions on Cybernetics, 2015, 45(7): 1372–1385. DOI:10.1109/TCYB.2015.2417170 |
[23] | Wang D, Liu D, Zhang Q, et al. Data-based adaptive critic designs for nonlinear robust optimal control with uncertain dynamics[J]. IEEE Transactions on Systems Man & Cybernetics-systems, 2016, 46(11): 1544–1555. |
[24] | Gao W, Jiang Z P. Adaptive dynamic programming and adaptive optimal output regulation of linear systems[J]. IEEE Transactions on Automatic Control, 2016, 61(12): 4164–4169. DOI:10.1109/TAC.2016.2548662 |
[25] | Zhang J, Liang H, Feng T. Optimal control for nonlinear continuous systems by adaptive dynamic programming based on fuzzy basis functions[J]. Applied Mathematical Modelling, 2016, 40(13/14): 6766–6774. |
[26] | Sun K K, Li Y, Tong S C. Fuzzy adaptive output feedback optimal control design for strict-feedback nonlinear systems[J]. IEEE Transactions on Systems Man & Cybernetics Systems, 2017, 47(1): 33–44. |
[27] | Sun J L, Liu C S, Zhao X. Backstepping-based zero-sum differential games for missile-target interception systems with input and output constraints[J]. IET Control Theory & Applications, 2018, 12(2): 243–253. |
[28] |
孙景亮, 刘春生.
基于自适应动态规划的导弹制导律研究综述[J]. 自动化学报, 2017, 43(7): 1101–1113.
Sun J L, Liu C S. An overview on the adaptive dynamic programming based missile guidance law[J]. Acta Automatica Sina, 2017, 43(7): 1101–1113. |
[29] |
张保群, 宋申民.
基于自适应滑模控制的导弹制导与控制一体化反演设计[J]. 弹箭与制导学报, 2009, 29(5): 31–35.
Zhang B Q, Song S M. Integrated playback design of missile guidance and control based on adaptive sliding-mode control[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2009, 29(5): 31–35. DOI:10.3969/j.issn.1673-9728.2009.05.008 |