0 引言
迭代学习控制(iterative learning control,ILC)是一种智能控制方法,适用于具有重复运行性质的系统,通过学习之前批次的输入输出信息对当前输入信号进行更新修正,从而使系统输出能够在有限批次内对期望输出轨迹精确跟踪[1-3]。ILC利用简单的学习律来处理具有高度非线性的系统是其一大优势[4],近年来在注塑机[5]、超声波电机[6]等非线性系统上得到了广泛应用。
在传统ILC中,为了确保跟踪性能,一般设定各种重复条件,如相同的批次长度、初始状态等[7]。然而,实际控制系统很难保证这些条件严格重复。如在双足步行机器人、功能性电刺激等应用中,由于复杂的实际情况,学习过程无法使每次迭代都具有相同的运行时长。而批次长度不等问题将导致跟踪误差信息缺失,无法对控制信号进行准确的更新修正,只有对缺失信息补偿后才能使不同批次的控制律进行全时间轴更新[8]。由此产生了很多基于缺失信息补偿机制的变批次长度迭代学习控制研究。文[9]针对批次长度变化的离散仿射非线性系统使用零补偿方法对跟踪误差进行修正,结合修正跟踪误差设计了P型迭代学习控制律,使跟踪误差逐点严格收敛。文[10]提出了一种基于迭代滑动平均算子和搜索补偿机制的控制算法,避免了收集冗余的过去跟踪误差信息,加快了学习速度。文[11]基于修正复合能量函数分析提出了一种新的迭代学习控制律结构,能够使迭代域上的全状态跟踪误差在范数意义下渐近收敛。文[12]针对一类输入轨迹长度随机变化的线性离散系统,以零补偿方法在期望迭代长度处对输入信号进行修正,实现跟踪误差期望收敛。目前,在变批次长度系统的信息缺失补偿方法中,零补偿方式相较于其他信息补偿机制更为简单直接,便于工程实现且能够对变批次长度系统进行有效控制,避免使用冗余的跟踪误差信息,在初始状态精确重置时可以实现跟踪误差的严格收敛。
另外,在实际工业过程中,受信息的测量与传递、物理条件约束等因素影响,时滞问题普遍存在于各种系统中,易造成系统性能指标下降甚至不稳定等问题。相关研究以状态时滞居多[13-14],而在实际工业中,也有很多系统存在输入时滞问题,如通信系统[15]、电动加载系统等[16]。文[16]针对具有输入时滞的电动加载系统,提出了一种PID控制与迭代学习控制相结合的加载力矩复合控制策略。文[17]利用频域内的内模控制结构,提出了一种输入时滞连续系统的鲁棒迭代学习控制方案。文[18] 针对具有已知输入时滞的直线电机控制系统,结合给定超前法设计了一种PD型控制律,基于Bellman-Gronwall不等式和范数理论证明了所提算法能够使系统跟踪误差期望收敛。给定超前法能够将各个迭代批次的误差信息提前利用,有效减少输入时滞对控制律更新和跟踪控制效果造成的影响。
因此本文研究一类变批次长度输入时滞非线性系统的PD型迭代学习控制问题,针对变批次长度造成的跟踪误差信息缺失问题,选择使用零补偿方法进行修正,从而得到修正跟踪误差并将其用于控制律;针对已知输入时滞,以给定超前法消除其对控制律更新的影响,设计PD型迭代学习控制律。根据数学期望与修正范数进行收敛性分析,考察跟踪误差在初始状态相同和有界变化这两种情况下的收敛性。最后将所提算法应用于网络环境下的直流电机驱动单杆系统仿真,验证了本文所提算法的有效性。
符号注释:||·||表示欧氏范数,
考虑一类输入时滞离散非线性系统:
(1) |
其中,k为迭代次数,k=0,1,⋯;t为离散时间,
设系统在运行中第k次迭代的运行时长为Nk,Nk在不同的迭代批次中随机变化。因此,需要考虑两种情况,即Nk < Nd和Nk≥Nd。对于后一种情况,注意到只有Nd时刻的数据可用于输入更新,Nd时刻之后得出的数据为冗余信息,直接忽略。因此,在不失一般性的情况下,可将后一种情况统一视为Nk=Nd,以Nd为实际长度的最大长度。在后续的分析中,统一将Nk的取值视为不大于Nd。对于前一种情况,在Nk+1,⋯,Nd时刻有信息缺失,这部分也无法进行控制律更新,只能对Nk时刻及之前的时刻进行更新。
定义
(2) |
本文的控制目标是设计迭代学习算法来跟踪期望轨迹
引理1 [9]设η为一个服从伯努利分布的二元随机变量,P(η=1)=τ,P(η=0)=1-τ。设一个任意常数矩阵M,当且仅当满足以下条件之一时,等式
1) τ=0;
2) τ=1;
3) 0 < τ < 1且0 < M≤I。
2 迭代学习控制律设计在本文中,最小迭代长度由Nm表示,批次运行时长在离散整数集合{Nm,⋯,Nd}之间随机变化。因此,在时刻t=0,1,⋯,Nm,输入信号总是可以得到更新,而在时刻t=Nm+1,⋯,Nd处是否有输出是随机的,输入信号不一定能得到更新。
为了描述批次长度的变化,本文用p(t)表示系统在时刻t有输出的概率。由上述内容可知,当0≤t≤Nm时,p(t)=1;当Nm+1≤t≤Nd时,0 < p(t) < 1。此外,在某次迭代中,若在时刻t0处存在输出,则在0≤t < t0中的任意时刻一定存在输出,由此可知p(Nm)>p(Nm+1)>⋯>p(Nd)。注意,该概率直接定义在时刻点上,与批次长度取值的概率无关。
使用Nk表示第k次迭代的批次长度,Nk在{Nm,⋯,Nd}之间随机取值,系统在时间0≤t≤Nk内有输出,在时间Nk+1≤t≤Nd内无输出或输出丢失。将Nk的取值定义为一个事件ANk。因此,第k批次迭代长度为Nk的概率计算式为P(ANk)=p(Nk)-p(Nk+1)且
注1 P(ANk)表示第k批次取值为Nk的概率,p(Nk)表示在时刻Nk处有输出的概率。若运行时长大于等于Nk,则Nk处必有输出,因此p(Nk)-p(Nk+1)表示这个时刻刚好有值的概率,即随机批次长度取到这个时刻的概率。
若Nk < Nd,则控制信号在Nk < t≤Nd内有信息缺失,只能暂停更新,或先对这段时间内缺失的信息进行补偿再更新。本文将信息缺失部分的跟踪误差设置为0,对这段时间内的输入信号不进行更新,即对信息缺失的部分采取零补偿方法进行补偿。因此,可以将跟踪误差:
(3) |
称为修正跟踪误差。
为使表达更加简洁,本文引入了一个指标函数1(t≤Nk),从而可将式(3)改写为
(4) |
注2 对于给定的t,若t≤Nm,则事件{t≤Nk}发生的概率为1;若t>Nm,则事件{t≤Nk}是事件{Nk=t},{Nk=t+1},⋯,{Nk=Nd}所有情况的总集。因此,事件{1(t≤Nk)=1}的概率计算为
针对输入时滞θ,本文使用给定超前法消除其对控制律更新造成的影响,设计PD型迭代学习控制律:
(5) |
其中,
为便于后续分析,现在提出假设:
假设1 非线性函数f (·):
(6) |
其中,kf > 0为Lipschitz常数。
假设2 满足相同的初始条件,即x k(0)= x d(0),∀k。
假设3 存在有界的初始状态偏差,即
下面在初始状态被精确重置的情况下,提出定理1,并进行数学证明。
定理1 考虑带输入时滞的非线性离散系统(1)和PD型迭代学习控制律(5),假定系统满足假设1和假设2。若学习增益矩阵P、D能满足
证明 根据迭代学习控制律(5)可得
(7) |
其中,
根据系统(1)和式(2),可得
(8) |
(9) |
其中,
(10) |
对式(10)两边同时取欧氏范数,根据假设1,可得
(11) |
注意到在式(11)中,1(t≤Nk)独立于Δ u k(t)和Δ x k(t+θ),因此对式(11)两边同时取期望,根据引理1和注2可得
(12) |
其中,0 < (P+D)CB < I。
对式(9)两边同时取欧氏范数,可得
(13) |
令||B || ≤kb,再对式(13)两边同时取数学期望,可得
(14) |
对式(14)两边的t同时减1,有:
(15) |
将式(15)代入式(14),可得
(16) |
由此递推关系,可得
(17) |
基于假设2,可将式(17)化为
从而可进一步得出:
(18) |
(19) |
将式(18)和式(19)代入式(12),得
(20) |
基于本文引用的修正λ范数,在式(20)两边同时乘以α-λt(α>1,λ>0),并根据t的所有范围取上确界,可得
(21) |
其中,
同理,有:
因此可将式(21)改写为
由于t < 0时,u (t)=0,因此||Δ u k(t-1)|| λ≤ ||Δ u k(t) ||λ,可将上式简化为
(22) |
其中,
由于α>1,λ>0,因此α-λ < 1,可得
又因为
(23) |
而0 < PCB < I,因此χ+δα-λ < 1。令α>max{1,kf},当λ足够大时,有
因此ρ < 1。由此可得
根据λ范数的定义以及t的有限性,可进一步得出:
再根据数学期望的性质以及欧氏范数的非负性,有:
同时,根据欧氏范数的性质
最后,沿t用数学归纳法,易得
注3 在本文所设计的PD型迭代学习控制律中,若令比例增益P = 0,则可得到D型控制律:
(24) |
若令微分增益D = 0,则可得到P型控制律:
(25) |
由此可知本文所提PD型迭代学习控制算法存在两种特殊情况,可从中得到D型与P型算法。在式(23)中,若令微分增益D = 0,对后续收敛性分析无影响,而令比例增益P = 0,则会使χ+δα-λ=1,从而导致输入误差无法收敛,即本文所考虑的系统无法在在D型控制律作用下实现跟踪误差收敛。综上,可得出推论1。
推论1 考虑带输入时滞的非线性离散系统(1)和P型迭代学习控制律(24),假定系统满足假设1和假设2。若学习增益矩阵P能满足0 < PCB < I,则跟踪误差将随着迭代次数k趋于无穷而收敛到0,
初始条件精确重置是迭代学习控制中的常见假设[20],然而实际工程应用时,初始条件会在一定范围内变化(见假设3)。该条件会使跟踪误差收敛于一个有界区域,此区域和初始状态误差呈比例关系。下面通过定理2进行说明。
推论2 考虑带输入时滞的非线性离散系统(1)和PD型迭代学习控制律(5),假定系统满足假设1和假设3。若学习增益矩阵P、D能满足0 < (P+D)CB < I,0 < PCB < I,0 < DCB < I,则跟踪误差将随着迭代次数k趋于无穷时,期望收敛于一个与初始状态误差的界κ成比例的区域,即
证明 本部分的证明在定理1中式(7)~式(17)的基础上进行推导,由式(17)可得
(26) |
根据假设3可知:
从而得到:
(27) |
(28) |
将式(27)和式(28)代入式(12),得
(29) |
同定理1,应用λ范数性质可得
(30) |
由于t的有限性,故存在一个常数ϑ使得:
因此式(30)可简化为
(31) |
对式(31)两边同时令k→∞,再根据λ范数,可得:
(32) |
结合式(27),可得:
(33) |
可知
可得:
令
(34) |
证毕。
4 仿真实例为验证本文所提算法的有效性,考虑将网络环境下直流电机通过齿轮驱动单杆模型[21]作为实验对象。其2阶微分方程模型描述为
(35) |
其中,Jm、Bm、θm和Jl、Bl、θl分别为电机和刚性杆的惯性系数、阻尼系数和角度,
其中,运行周期为T=3 s,Jm=0.3 m-1,Jl=0.44 m-1,Bm=0.3 N·s/m,Bl=0.25 N·s/m,n=1.6,M=0.5 kg,g=9.8 m/s2,l=0.1 m。取参考轨迹为
(36) |
考虑该系统在网络环境下运行,由于通信延迟,控制信号u k(t)在迭代学习控制器到执行器的网络传输中存在已知输入时滞θ。由运行周期和采样间隔可知,期望长度Nd=60。对于批次长度的变化范围,本文设定最小迭代长度Nm=45,因此每批次的迭代长度Nk在45~60内随机取值,且满足离散均匀分布条件,即P(Nk=z)=1/16,∀45≤z≤60,
取比例增益P=0.4,D =0.3,将其代入定理1中,则(P+D)CB=0.046,PCB=0.026 5,DCB=0.019 8,符合条件。设置初始状态为x k(0)=[0 0]T,已知输入时滞θ=5,迭代次数N=100。不失一般性,将初始输入设置为0,即u1(t)=0,0≤t≤Nd。期望曲线与第10批次和第100批次的输出响应曲线如图 1所示,可看出第10批次时系统的输出响应曲线已经很接近期望曲线,到100批次时输出响应曲线与期望曲线几乎重合,基本实现完全跟踪。图 2的3维图显示了全批次输出响应曲线的变化,可见系统输出在大约20批次时便趋于稳定,另外也能看出每批次的运行时长都是不同的,说明了系统批次长度的随机变化。
图 3选取了第10批次、第25批次、第50批次和第100批次的跟踪误差曲线,可以看出随着迭代次数k的增加,系统的跟踪误差明显减少。到第50批次时,误差已经很小,到第100批次时,误差几乎为0,基本实现完全跟踪。另外,注意到在第50批次的跟踪误差曲线中,最后几个时刻的误差较大,这是由于每批次的迭代长度不等,后几个时刻获得的跟踪误差信息相对较少,无法对控制律进行充分校正导致的。
图 4为全批次的跟踪误差曲线,可以看出由于系统批次长度变化,在每批次的最后几个时刻误差会有明显波动,但是随着迭代次数的增加,系统在这些时刻运行的次数增多,控制律得到了更新,使得最后几个时刻的误差逐渐减小并收敛到0。
图 5为系统在PD型零补偿算法、PD型迭代平均算子与P型零补偿算法作用下产生的每批次最大跟踪误差的仿真比较,其中最大跟踪误差定义为
为了验证系统在初始状态变化下的收敛情况,本文假设每批次的初始状态在[-κ,κ]中服从均匀分布,设定不同尺度的κ分别为0.005、0.01和0.05,最大跟踪误差曲线如图 6所示。可见,跟踪性能将低于初始条件相同的情况,但本文所提算法仍可使跟踪误差较好地收敛。此外可以发现初始状态偏差越小,最大跟踪误差的收敛范围也越小。
仿真结果表明,本文提出的PD型迭代学习控制算法对输入时滞非线性系统的批次长度变化有良好的适应性。虽然λ范数意义下的收敛性并不意味着跟踪性能自然单调下降,但该类系统在本文提出的控制律下跟踪性能可以持续改善。
5 结语本文对变批次长度输入时滞非线性系统的迭代学习控制进行了算法设计和收敛性分析。引入一个随机变量来描述变批次长度,然后根据零补偿方法对跟踪误差进行修正。本文基于PD型迭代学习控制律设计算法,当满足初始条件相同的情况时,利用数学期望与修正λ范数证明了当迭代次数趋于无穷大时,跟踪误差可收敛到零;当初始状态在一个区域内变化时,跟踪误差可以期望收敛于一个与初始状态误差的界成比例的区域。结合实际工业情况,往往无法得知时滞的具体值,因此还可以进一步对不确定时滞进行研究。
[1] |
ARIMOTO S, KAWAMURA S, MIYAZAKI F. Bettering operation of robots by learning[J]. Journal of Robotic Systems, 1984, 1(1): 123-140. |
[2] |
孙明轩, 黄宝健. 迭代学习控制[M]. 北京: 国防工业出版社, 1999. SUN M X, HUANG B J. Iterative learning control[M]. Beijing: National Defense Industry Press, 1999. |
[3] |
LI Y, JIANG W. Fractional order nonlinear systems with delay in iterative learning control[J]. Applied Mathematics and Computation, 2015, 257: 546-552. DOI:10.1016/j.amc.2015.01.014 |
[4] |
许慧敏. 非线性系统迭代学习控制算法研究[D]. 北京: 华北电力大学, 2016. XU H M. Research on iterative learning control algorithm for nonlinear system[D]. Beijing: North China Electric Power University, 2016. |
[5] |
张秀赟. 非线性系统变增益迭代学习控制研究[D]. 无锡: 江南大学, 2020. ZHANG X Y. Research on variable gain iterative learning control of nonlinear system[D]. Wuxi: Jiangnan University, 2020. |
[6] |
黄文文, 宋璐, 史敬灼. 超声波电机离散采样迭代学习逆控制[J]. 微电机, 2020, 53(12): 56-59. HUANG W W, SONG L, SHI J Z. Discrete sampling iterative learning inverse control of ultrasonic motor[J]. Micromotors, 2020, 53(12): 56-59. DOI:10.3969/j.issn.1001-6848.2020.12.011 |
[7] |
SHEN M Q, WU X Z, PARK J H, et al. Iterative learning control of constrained systems with varying trial lengths under alignment condition[J/OL]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 12(28)[2022-05-16]. https://ieeexplore.ieee.org/document/9664474
. DOI: 10.1109/TNNLS.2021.3135504.
|
[8] |
SHEN D, LI X F. A survey on iterative learning control with randomly varying trial lengths: Model, synthesis, and convergence analysis[J]. Annual Reviews in Control, 2019, 48: 89-102. DOI:10.1016/j.arcontrol.2019.10.003 |
[9] |
SHEN D, ZHANG W, XU J X. Iterative learning control for discrete nonlinear systems with randomly iteration varying lengths[J]. Systems & Control Letters, 2016, 96: 81-87. |
[10] |
LI X F, SHEN D. Two novel iterative learning control schemes for systems with randomly varying trial lengths[J]. Systems and Control Letters, 2017, 107: 9-16. DOI:10.1016/j.sysconle.2017.07.003 |
[11] |
JIN X. Iterative learning control for MIMO nonlinear systems with iteration-varying trial lengths using modified composite energy function analysis[J/OL]. IEEE Transactions on Cybernetics, 2020[2022-04-12]. https://ieeexplore.ieee.org/document/8979175/
. DOI: 10.1109/TCYB.2020.2966625.
|
[12] |
WEI Y S, XU Q Y. Iterative learning control for linear discrete-time systems with randomly variable input trail length[J/OL]. Complexity, 2018[2022-05-01]. https://dl.acm.org/doi/10.1155/2018/2763210
. DOI: 10.1155/2018/2763210.
|
[13] |
GONG Y J, YANG R N, PASZKE W, et al. Observer-based iterative learning control for the discrete-time systems with time delay and finite frequency domain specifications[J]. International Journal of Control, 2022, 20(1): 48-57. |
[14] |
CHEN Y, HUANG D Q, QIN N, et al. Adaptive iterative learning control for a class of nonlinear strict-feedback systems with unknown state delays[J/OL]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 12(4)[2022-05-10]. https://ieeexplore.ieee.org/document/9667206
. DOI: 10.1109/TNNLS.2021.3136644.
|
[15] |
LIU J, RUAN X E. Networked iterative learning control design for discrete-time systems with stochastic communication delay in input and output channels[J]. International Journal of Systems Science, 2017, 48(9): 1844-1855. DOI:10.1080/00207721.2017.1289567 |
[16] |
代明光, 齐蓉. 具有控制时滞的电动加载系统迭代学习复合控制[J]. 北京航空航天大学学报, 2020, 46(2): 340-349. DAI M G, QI R. Composite iterative learning control for electric dynamic loading system with control time delay[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020, 46(2): 340-349. |
[17] |
HAMID S G, SOHEIL G, MOHAMMAD S A. Robust iterative learning control for uncertain continuous-time system with input delay and random iteration-varying uncertainties[J]. IET Control Theory & Applications, 2021, 13(15): 1749-1761. |
[18] |
周颖, 何磊. 具有控制时滞和测量数据丢失的直线电机迭代学习控制[J]. 控制与决策, 2017, 32(8): 1434-1438. ZHOU Y, HE L. Iterative learning control for linear motor system with control delay and measurement dropout[J]. Control and Decision, 2017, 32(8): 1434-1438. |
[19] |
SHI J T, HE X, ZHOU D H. Iterative learning control for nonlinear stochastic systems with variable pass length[J]. Journal of the Franklin Institute, 2016, 353(15): 4016-4038. DOI:10.1016/j.jfranklin.2016.07.005 |
[20] |
SHEN D, XU J X. Robust learning control for nonlinear systems with nonparametric uncertainties and nonuniform trial lengths[J]. International Journal of Robust and Nonlinear Control, 2019, 29(5): 1302-1324. DOI:10.1002/rnc.4437 |
[21] |
WANG D W. Convergence and robustness of discrete time nonlinear systems with iterative learning control[J]. Automatica, 1998, 34(11): 1445-1448. DOI:10.1016/S0005-1098(98)00098-3 |