1 引言
软测量建模是目前化工过程控制领域的热点研究方向[1-4],对于具有复杂、强非线性特性的动态系统,它能够有效地改善和解决生产过程中在线分析仪表测量滞后大、价格昂贵、维护保养复杂等问题,满足实际生产过程中实时性的需求.目前,神经网络、支持向量机(support vector machine,SVM)等计算智能方法是主要的建模工具,在基于数据驱动的软测量建模[5-9]中已取得了成功的应用.与前馈神经网络(feedfordward neural network,FNN)相比,递归神经网络(recurrent neural network,RNN)通过合并网络节点的反馈连接,具有动态记忆特性,能够处理具有时延信息的数据,具有更好的潜力.文[10]针对氧化铝生产过程中铝酸钠溶液组分的浓度建模,提出一种基于稳定学习的递归神经网络动态PLS(partial least square)软测量建模方法,取得了很好的效果.
RNN通常采用BPTT(back propagation through time)、RTRL(real time recurrent learning)学习算法,收敛速度慢,易陷入局部最优.为了加快网络的收敛速度,文[11-12]给出了无微分的训练学习算法——扩展卡尔曼滤波(EKF)算法,与BPTT、RTRL算法相比,虽然计算复杂度较高,但是它显示出更好的学习性能和更强的鲁棒性.但是,对于高度非线性系统,由于EKF算法的一阶线性逼近特性,会导致算法出现“发散”情形,而且其仅适用于可微函数.文[13-14]在贝叶斯滤波的框架下,基于Spherical-Radial容积准则,提出一种容积卡尔曼滤波(CKF)算法,其在高斯分布的假设下,将贝叶斯滤波问题的求解转化为非线性函数与高斯概率密度函数的多维积分求解问题,CKF计算效率高.容积规则的选择是能够有效求解这类问题的关键.文[15]将CKF算法用于前馈神经网络的训练,取得较好的训练效果.但是,CKF算法在运行过程中无法保证误差协方差矩阵的对称性和正定性,这会使得算法出现发散现象.为避免该问题,平方根容积卡尔曼滤波(SCKF)[14, 16]算法被提出,有效改进了CKF算法的数值稳定性.
针对化工过程软测量建模,本文采用SCKF算法训练Elman递归神经网络,并将其应用于脱丁烷塔底部C4(丁烷)组分浓度的预测和硫回收装置(SRU)中硫化氢(H2S)及二氧化硫(SO2)气体浓度的估计的实例实验中,在同等条件下,还将与基于BPTT、RTRL和EKF算法训练的Elman递归网络,基于BPTT、RTRL、EKF和SCKF算法训练的全连接递归神经网络(fully-connected recurrent neural network,FCRNN)[11],基于EKF和SCKF算法的多层感知器(multi-layer perceptron,MLP)方法进行比较,以验证本文方法的有效性.
2 简单递归神经网络Elman神经网络作为一阶局部RNN,是一种简单递归神经网络(SRN),其拓扑结构如图 1所示.
SRN主要由输入层U、隐含层R、联系层C及输出层Y组成,与前馈神经网络的连接形式相同,输入层、隐含层和输出层的神经元分别通过权值WRU和WYR全连接,时延连接将隐含层的递归神经元在当前k时刻的激活函数输出值反馈给联系层,满足ck=vk-1.因此,每一个递归单元通过权值WRC均接受来自前一时刻的所有递归单元的激活函数输出作为输入,来自前一时刻的递归单元的激活输出可视为递归层输入的扩展,这使得SRN具有短时记忆功能.
给定SRN网络在k时刻的外部输入,uk=(u1,k,…,uj,k,…,uNi,k),uk∈RNi,隐含层的递归神经元输出vk=(v1,k,…,vj,k,…,vNv,k),vk∈RNv,则隐含层的第i个单元输入
(1) |
(2) |
输出层的神经元输出yk∈RNo,其第i个单元的输出yi,k可表示为
(3) |
其中,f(·)表示激活函数,通常使用Sigmoid函数、双曲正切函数.为进一步提高网络的学习性能,本文选取如下的特殊双曲正切函数[11]:
(4) |
采用SCKF算法对SRN进行训练,将训练问题作为一个非线性动力系统的动态参数估计问题来处理,即将网络的连接权值作为SCKF的状态,随着时序k不断对网络的权值参数进行更新,使得网络的实际输出与期望输出之间的均方误差随着时序的增加而逐渐减小.
由图 1所示的SRN,定义k时刻由WRU、WRC及WYR中的矩阵元素按列向量的次序重组展开,所形成的向量w∈RNw为权值状态向量.
此时,网络的非线性状态空间模型可表示为
(5) |
(6) |
其中,wk是维数为Nw=Nv×(Ni+Nv)+No×Nv的权向量;过程噪声向量qk-1、量测噪声rk假定服从具有零均值,协方差矩阵分别为Qk-1、Rk的高斯噪声过程.另外,式(5) 人工添加的过程噪声有助于避免算法训练时,目标函数陷入局部极小.
若给定输入—输出样本集Dk={ui,yi}i=1k,在高斯假设的框架下,从贝叶斯滤波的角度分析网络的监督学习过程,存在如下滤波似然密度函数:
(7) |
其中,N(·,·)为高斯分布的记号.一步预测的量测值和相应的协方差矩阵为
(8) |
(9) |
状态和量测变量的联合条件高斯密度函数可表示为
(10) |
其中,量测与状态变量的互协方差为
(11) |
一旦接收新的量测值,由式(10) 状态变量的后验密度函数计算如下:
(12) |
其中,
(13) |
(14) |
(15) |
另外,网络的提前一步预测输出可以写为
(16) |
由式(5) 的线性状态方程,显然,可得到
(17) |
因此,式(13) 可等价表示为
(18) |
由式(5) 可得到预测误差协方差矩阵
(19) |
由于随着训练过程的不断更新,过程噪声协方差Qk-1应逐步减小.因此,可通过含有遗忘因子λ的自适应策略进行退火处理,即令Qk-1=(1/λ-1)Pk-1|k-1,其中遗忘因子λ∈(0,1],这使得过程噪声按指数规律衰减.这样,式(19) 可进一步变形为
(20) |
当所有的条件概率密度函数均假定服从高斯分布时,贝叶斯滤波的一种近似就是对非线性函数与高斯函数乘积的多维积分进行直接数值逼近的SCKF算法.由给出容积点的计算规则,可以实现基于SCKF的SRN训练算法.
3.1 Spherical-Radial准则考虑到任意非线性函数与任意高斯分布N(x;μ,Σ)的乘积的数学期望总是能变换为对标准高斯分布乘积的数学期望,其中μ为均值向量,Σ为协方差矩阵.
考虑多维标准高斯积分以如下形式逼近:
(21) |
其中,ξ∈Rn,n为状态空间的维数,点集[e]i属于单位向量[1]构成的对称集合,即:
M是权重,c是待确定的参数.
因为点集合是对称的,若分别给定gj(ξ)=1,gj(ξ)=ξj2,可以构造出精确到三阶的准则[10]确定
该变量代换的方法可以延伸至求取非线性函数与服从任意均值向量与协方差矩阵的高斯分布函数乘积的积分.给定如下形式的多维积分:
(22) |
其三阶Spherical-Radial准则的容积逼近计算如下:
Step 1 计算单位容积点如下:
(23) |
其中ei∈Rn是第i个坐标轴方向上的单位向量.
Step 2 计算积分如下:
(24) |
其中
因此,式(16) 可进一步化简为
(25) |
其中ξi是状态向量wk∈RNw的容积点表示.
容积规则是无微分的运算,无需EKF算法中的Jacobians矩阵或Hessians矩阵的复杂求导运算,在每次更新时,仅需计算2n个容积点,一定程度上避免了“维数灾难”,另外,三阶容积规则还具有2n个容积点的理论下界,基于该规则的CKF或SCKF可以认为是非线性贝叶斯滤波器较好的次优逼近.
SCKF算法通过Spherical-Radial准则求得系统状态的容积点,然后通过非线性系统将容积点传播,进而可求得较为精确的后验均值和协方差的平方根因子,通过滤波过程中的时间更新和量测更新实现对所需状态的估计.
3.2 SRN-SCKF算法标准CKF算法在传播容积点的过程中,由于在有限精度的计算机上所执行的算术运算所引起的误差效应,误差协方差矩阵的两个基本特性:正定性和对称性常常会丢失,其正定性的丢失可能会使得CKF算法的运行被终止.在每一时刻的CKF时间更新和量测更新过程中所涉及到的对矩阵的平方根运算、求逆运算、舍入误差被矩阵平方运算所放大等数值敏感性运算均会破坏协方差矩阵的特性,而且一些非线性滤波问题也可能是数值病态的,这使得协方差矩阵有可能非正定,从而导致算法不稳定甚至是不收敛.为了解决上述问题,文[11]给出了CKF的平方根改进算法,即SCKF算法,它本质上传播预测和后验误差协方差的平方根因子,避免了矩阵的平方根运算,改进了算法的数值稳定性.除此之外,SCKF还具有保持协方差的对称性和正定性的特点.
假设在k-1时刻,权值状态向量的后验概率密度近似服从高斯分布,其均值为权值向量滤波估计值
基于SCKF的SRN网络的训练学习算法实现步骤如下:
Step 1 容积点的计算.考虑式(17)、式(20),由式(24),计算权值状态向量的容积点Wi,k-1|k-1
(26) |
其中ξi的定义同式(23),m=2Nw.
Step 2 结合SRN的状态空间模型式(6),计算容积点的传播:
(27) |
Step 3 由式(25),可估计网络的提前一步预测输出,即预测均值向量
(28) |
Step 4 估计量测输出的误差协方差矩阵Pyy,k|k-1的平方根因子Syy,k|k-1,即新息协方差矩阵的平方根因子.
(29) |
其中,加权的中心化矩阵Yk|k-1为
矩阵SR,k是量测噪声协方差矩阵Rk的平方根因子.算子Tria(·)表示对矩阵实施正交三角分解的运算,返回一个下三角矩阵.
若P为预测误差协方差矩阵,由
(30) |
的结果可知,对P的平方根因子AT做QR分解,则返回上三角矩阵R,由式(30) 可知S=RT是下三角矩阵.
Step 5 估计权值状态向量与量测输出向量的互协方差矩阵
(31) |
其中,加权中心化矩阵
Step 6 计算卡尔曼增益
(32) |
其中,符号“/”表示矩阵的右除算子.若矩阵B为上三角矩阵,A/B执行回代算法;如果B为下三角矩阵,则执行前向替代算法.
Step 7 在获取k时刻的网络输出值yk时,根据式(18) 的状态更新表达式,计算权值状态向量
(33) |
Step 8 估计相应权值状态向量的滤波误差协方差矩阵的平方根因子,即:
(34) |
从浮点运算次数分析,SCKF算法的计算复杂度随着状态维数的立方而增长,因此其计算复杂度与CKF算法、EKF算法相当,为O(Nw3).
另外,与CKF算法不同,SCKF算法在更新过程中,需要对先验及后验误差协方差矩阵进行正交三角化分解,传播三角化的协方差矩阵的平方根因子,以避免矩阵求逆运算.式(34) 是其算法核心,为得到该式的结果,可首先由式(32) 得到:
(35) |
由于Pyy,k|k-1具有对称性,Pyy,k|k-1=Pyy,k|k-1T,故可得
(36) |
其次,由文[9-10]的CKF算法推导过程,可得误差协方差矩阵的滤波更新过程为
(37) |
考虑式(32),式(35) 可变形为
(38) |
最后,将式(36) 与式(38) 相加,可得:
(39) |
由于Pk|k-1=Sk-1|k-1Sk-1|k-1T,故可得
(40) |
由式(40) 的结果显然可知,式(34) 成立.
算法运行时,令
将基于SCKF的SRN方法应用于化工过程的软测量建模实例中,利用相关辅助变量及主导变量的历史数据,结合具有外部输入的非线性时间序列分析模型进行软测量建模,同等条件下,还将与基于BPTT、RTRL、EKF的SRN,基于EKF、SCKF的MLP,基于BPTT、RTRL、EKF、SCKF的FCRNN等其它方法进行比较.性能指标评价选取均方误差(MSE)和相关系数[17].
4.1 脱丁烷塔底C4浓度的软测量估计脱丁烷塔是炼油厂炼油过程中脱硫和石脑油分离装置的必要组成部分,需要满足在塔底部C4组分含量最小化的质量控制要求,使用在线监测分析仪测量C4浓度时,由于时延的原因,整个周期大约需30~75 min.因此,建立软测量模型,对C4浓度进行实时动态监测是十分必要的.
为实现软测量动态建模,在图 2所示的分馏装置中需安装传感器进行辅助测量. 图 2中的7个灰圈表示可测辅助变量:u1是塔顶温度,u2是塔顶压力,u3是回流量,u4是流向下一过程的流量,u5是第6塔板温度,u6、u7分别是塔底不同区域的温度,采样周期为12 min.主导变量为C4的浓度.
该过程具体的描述见文[2, 5],可收集2 394组数据,均归一化为[0, 1]之间的数值.数据集由如下网址:http://www.springer.com/us/book/9781846284793获得.为应用本文方法进行软测量动态建模,结合非线性时间序列分析,考虑如下的NARX模型[2],即
(41) |
对f的逼近采用结构为13-5-1的SRN网络,即采用基于SCKF算法的SRN构建软测量模型,权值初始化为(-0.5,0.5) 之间的随机数,遗忘因子λ=0.999 5,权值误差协方差矩阵的平方根因子
在对比方法中,f的逼近可采用单隐层的MLP及FCRNN,其具体网络结构与SRN相同.
为了检验模型的性能,将所收集的数据的前一半作为训练数据集,其余的一半为测试数据集. 图 3给出基于各种不同的方法进行训练时,MSE随训练代数变化的收敛曲线.从图 3中可以看出,SRN-SCKF方法的收敛速度最快,经过约10次迭代后可达到较高的精度. 图 4给出了测试数据集上,基于SRN-SCKF方法的软测量输出估计值与实际值的对比结果. 图 5相应给出了基于SRN-SCKF方法预测C4浓度的误差结果.从图 4与图 5的预测效果可以看出,本文方法具有很好的估计精度.
在测试数据集上,应用不同软测量方法对C4浓度进行估计的具体性能指标则由表 1给出.由表 1可看出,RNN的建模精度均高于MLP网络,其中,SRN的精度略高于FCRNN,而且,与传统的训练算法相比,采用EKF及SCKF算法进行训练的SRN网络,其收敛速度更快、精度更高,而且SRN-SCKF方法的预测精度比SRN-EKF方法的精度高一个数量级左右,这也进一步表明了所提出方法的有效性.
同时,本文方法还与文[2, 8, 17, 18]的结果进行了比较,其中,文[2]采用了一种具有12个隐含层节点的MLP方法,文[8]采用了一种具有自适应过程状态分区的局部偏最小二乘方法,文[17]采用了一种具有离线及在线RLS学习算法的改进ESN网络,文[18]采用了一种贝叶斯网络建立了估计C4浓度的软测量模型.本文方法的估计精度明显优于文[2, 18]的结果,略好于文[8, 17]的结果.
4.2 SRU中H2S和SO2浓度的软测量估计SRU的作用是在排放酸性气体流之前,移除其中的SO2、H2S等环境污染物,同时将硫元素作为一种副产品进行回收,4条完全相同的硫回收线子单元将并行工作,主要对两种气体进行处理,第一种产生于洗气装置中,主要包含H2S,称为MEA气体.第二种产生于酸水汽提装置,富含NH3和H2S,也称为SWS气体. SRU的某一条硫回收线的简化流程如图 6所示.
由于酸性气体较强的腐蚀性,使得在线分析仪的故障频率很高,当在线分析仪发生故障时,使用“软传感器”则可以监测H2S和SO2的浓度,使得装置正常运行.由图 6可分别选取5个辅助变量,即:u1是MEA气体流量(MEA_GAS);u2是空气流量(AIR_MEA);u3是第二空气流量(AIR_MEA_2);u4是SWS区域的气体流量(SWS_GAS+MEA_SPILLING);u5是SWS区域的空气流量(AIR_SWS+MEA_SPILLING_AIR),辅助变量的采样周期为1 min.主导变量分别为H2S和SO2的浓度输出.
SRU过程的描述由文[2]给出,数据集由网址http://www.springer.com/us/book/9781846284793获得.为应用本文的方法进行动态软测量模型建模,结合非线性时间序列分析,考虑如下的NMA模型[2]:
(42) |
(43) |
其中,y1(k)表示H2S的浓度输出,y2(k)表示SO2的浓度输出,未知的f1(·)及f2(·)可采用SRN网络、FCRNN网络或MLP进行逼近,分别构建用于H2S和SO2浓度估计的软测量模型.
该过程收集10 081组数据,均归一化为[0, 1]之间的数值,前一半数据选取为训练数据集,其余的为测试数据集. SRN网络的结构为20-6-1,权值初始化为(-0.5,0.5) 之间的随机数,遗忘因子λ=0.999 5,权值误差协方差矩阵的平方根因子
图 7、图 8分别给出了对H2S和SO2的浓度进行估计时,在训练数据集上,基于不同方法的MSE随训练代数变化的曲线.从图 7、图 8可看出,SRN-SCKF方法的收敛速度较快,经过约10次迭代后可获取满意的精度. 图 9和图 10则分别给出了基于SRN-SCKF方法对H2S的浓度进行估计时,在测试集上模型的软测量估计值与实际输出值的对比效果及相应的误差结果曲线. 图 11和图 12分别给出了基于SRN-SCKF方法对SO2浓度进行估计时,在测试集上模型的软测量估计值与实际输出值的对比效果及相应的误差结果曲线,从图 9~图 12的结果看出,SRN-SCKF方法的估计效果非常好.
表 2和表 3给出了基于不同方法估计H2S和SO2浓度时,在测试集上具体性能指标数值的对比.可以看出,SRN-SCKF方法的估计精度与相关系数均最好,这表明了本文方法的有效性.同时,还与文[2, 17]的结果进行了对比.在文[2]中,基于MLP、RBF神经网络,自适应神经模糊系统和非线性最小二乘四种方法分别对H2S和SO2的浓度进行估计,在数据集中分别随机选取1 000组数据作为训练样本和测试样本.其中,非线性最小二乘方法的预测精度最高,对H2S的MSE为8×10-4,相关系数为0.848;对SO2的MSE为4×10-4,相关系数为0.905.文[17]采用ε-SVM、LSSVM和LiESN网络分别对H2S和SO2的浓度进行估计.由比较可知,本文方法与LiESN方法获取的结果相当,均优于文献中其他方法.
5 结论针对具有强非线性特性的化工过程,利用所收集的相关辅助变量及主导变量的历史数据,基于NARX和NMA非线性时间序列模型,提出了一种基于SRN-SCKF的动态软测量建模方法.所提出方法的优点是:训练过程中应用SCKF算法对网络的权值进行更新,避免了常规梯度下降算法易陷入局部极小的不足,也无需EKF算法或CKF算法所涉及的矩阵求导或求逆运算;算法的收敛速度快,精度高.通过两个化工过程实例的应用,验证了本文方法的有效性.
[1] | Kadlec P, Grbic' R, Gabrys B. Review of adaptation mechanisms for data-driven soft sensors[J]. Computers & Chemical Engineering, 2011, 35(1): 1–24. |
[2] | Fortuna L, Graziani S, Rizzo A, et al. Soft sensors for monitoring and control of industrial processes[M]. Berlin, Germany: Springer-Verlag, 2007. |
[3] |
孙茂伟, 杨慧中.
局部加权混合核偏最小二乘算法及其在软测量中的应用[J].信息与控制, 2015, 44(4): 481–486.
Sun M W, Yang H Z. Local weighted mixed kernel partial least squares algorithm and its applications in to soft-sensing[J]. Information and Control, 2015, 44(4): 481–486. |
[4] |
熊伟丽, 张伟, 徐保国.
一种基于EGMM的高斯过程回归软测量建模[J].信息与控制, 2016, 45(1): 14–19.
Xiong W L, Zhang W, Xu B G. A Soft sensor modeling method based on EGMM using gaussian process regression[J]. Information and Control, 2016, 45(1): 14–19. |
[5] | Fortuna L, Graziani S, Xibilia M G. Soft sensors for product quality monitoring in debutanizer distillation columns[J]. Control Engineering Practice, 2005, 13(4): 499–508. DOI:10.1016/j.conengprac.2004.04.013 |
[6] | Lin B, Recke B, Knudsen J K H, et al. A systematic approach for soft sensor development[J]. Computers & Chemical Engineering, 2007, 31(5): 419–425. |
[7] | Graziani S, Napoli G, Xibilia M G. Soft sensor design for a sulfur recovery unit using a clustering based approach[C]//Proceedings of Instrumentation and Measurement Technology. Piscataway, NJ, USA: IEEE, 2008: 1162-1167. |
[8] | Shao W M, Tian X M, Wang P, et al. Online soft sensor design using local partial least squares models with adaptive process state partition[J]. Chemometrics and Intelligent Laboratory Systems, 2015, 144: 108–121. DOI:10.1016/j.chemolab.2015.04.003 |
[9] | He Y L, Xu Y, Zhu Q X. Soft-sensing model development using PLSR-based dynamic extreme learning machine with an enhanced hidden layer[J]. Chemometrics and Intelligent Laboratory Systems, 2016, 154: 101–111. DOI:10.1016/j.chemolab.2016.03.014 |
[10] |
王魏, 柴天佑, 赵立杰.
带有稳定学习的递归神经网络动态偏最小二乘建模[J].控制理论与应用, 2012, 29(3): 337–341.
Wang W, Chai T Y, Zhao L J. Dynamic partial least squares modeling with recurrent neural networks of stable learning[J]. Control Theory & Applications, 2012, 29(3): 337–341. |
[11] | Haykin S. Neural networks and learning machines[M]. Upper Saddle River, NJ, USA: Pearson, 2009. |
[12] | Ĉerñanský M, Makula M, Beñušková L. Organization of the state space of a simple recurrent network before and after training on recursive linguistic structures[J]. Neural Networks, 2007, 20(2): 236–244. DOI:10.1016/j.neunet.2006.01.020 |
[13] | Arasaratnam I, Haykin S. Cubature kalman filters[J]. IEEE Transactions on Automation Control, 2009, 54(6): 1254–1269. DOI:10.1109/TAC.2009.2019800 |
[14] | Arasaratnam I. Cubature Kalman filtering: Theory & applications[D]. Hamilton, ON, Canada: McMaster University, 2009. |
[15] |
胡振涛, 袁光耀, 胡玉梅, 等.
基于容积卡尔曼滤波的神经网络训练算法[J].控制与决策, 2016, 31(2): 355–360.
Hu Z T, Yuan G Y, Hu Y M, et al. Training method of neural network based on cubature Kalman filter[J]. Control and Decision, 2016, 31(2): 355–360. |
[16] | Wang S Y, Feng J C, Tse C K. Novel cubature Kalman filtering for systems involving nonlinear states and linear measurements[J]. AEU-International Journal of Electronics and Communications, 2015, 69(1): 314–320. DOI:10.1016/j.aeue.2014.09.017 |
[17] |
李军, 岳文琦.
基于泄漏积分型回声状态网络的软测量动态建模方法及应用[J].化工学报, 2014, 65(10): 4004–4014.
Li J, Yue W Q. Dynamic soft sensor modeling and its application using leaky-integrator ESN[J]. CIESC Journal, 2014, 65(10): 4004–4014. DOI:10.3969/j.issn.0438-1157.2014.10.034 |
[18] |
李雅芹, 周开武, 杨慧中.
基于贝叶斯网络的软测量建模方法[J].计算机与应用化学, 2010, 27(10): 1391–1394.
Li Y Q, Zhou K W, Yang H Z. A soft sensor based on Bayesian network[J]. Computers and Applied Chemistry, 2010, 27(10): 1391–1394. DOI:10.3969/j.issn.1001-4160.2010.10.022 |