半监督鲁棒概率偏最小二乘模型及其在多采样率过程监控中的应用

文章快速检索

引用本文

陈家益, 赵忠盖, 刘飞. 半监督鲁棒概率偏最小二乘模型及其在多采样率过程监控中的应用[J]. 信息与控制, 2017, 46(6): 712-719. 复制到剪切板

CHEN Jiayi, ZHAO Zhonggai, LIU Fei. Semi-supervised Robust Probabilistic Partial Least Squares Model and Its Applications to Multi-rate Process Monitoring[J]. Information and Control, 2017, 46(6): 712-719. 复制到剪切板

半监督鲁棒概率偏最小二乘模型及其在多采样率过程监控中的应用

陈家益, 赵忠盖, 刘飞

江南大学轻工过程先进控制教育部重点实验室, 江苏无锡 214122

收稿/录用/修回: 2016-10-08/2016-12-20/2017-02-10

基金项目: 国家自然科学基金资助项目(61134007, 61573169);江苏省六大人才高峰项目(2014-ZBZZ-010)

作者简介: 陈家益（1990-），男，硕士生.研究领域为工业过程建模与过程监控.
赵忠盖（1976-），男，博士，教授，博士生导师.研究领域为间歇过程建模与软测量，工业系统监控与诊断.
刘飞（1965-），男，博士，教授，博士生导师.研究领域为先进控制理论及应用，工业系统监控与诊断.

通信作者: 赵忠盖，gaizihao@jiangnan.edu.cn

摘要: 针对实际工业过程中多采样率问题，引入半监督方法，提出一种半监督鲁棒概率偏最小二乘法，将采样率不一致的完整数据分成少数标记样本和大量未标记样本，然后分别用这两种样本数一致的数据建立鲁棒概率偏最小二乘（PPLS）模型，通过充分挖掘大量未标记数据提供的有用信息来提高模型的准确性.更进一步，将半监督鲁棒PPLS引入过程监控中，提出GT²、SPEx和SPEy三个监控指标，分别监控过程的受控状态以及模型关系的变化.通过对半监督鲁棒PPLS和降采样鲁棒PPLS在TE过程监控应用中比较，结果表明半监督鲁棒PPLS比降采样鲁棒PPLS效果更好.

关键词: 半监督鲁棒概率偏最小二乘多采样率监控指标

Semi-supervised Robust Probabilistic Partial Least Squares Model and Its Applications to Multi-rate Process Monitoring

CHEN Jiayi, ZHAO Zhonggai, LIU Fei

Key Laboratory of Advanced Process Control for Light Industry, Ministry of Education, Jiangnan University, Wuxi 214122, China

Abstract: We present a semi-supervised robust probabilistic partial least squares (semi-supervised RPPLS) method, which can handle data with unequal sample sizes of input variables and output variables. The model should be developed based on complete data samples. However, the dataset is divided into two parts. The first part that contains samples of both the process variables and corresponding quality variables is denoted as the labeled dataset. The other part that consists of the process variable samples only is called the unlabeled dataset. We employ the unlabeled dataset together with the labeled dataset to develop a valid statistical model. Furthermore, on the basis of the semi-supervised RPPLS model, three monitoring indices, namely, GT², SPEx, and SPEy, are proposed to evaluate the process state and the model changes. A comparison indicates that the proposed method is more effective than the downsampling RPPLS method in the monitoring of the Tennessee Eastman process.

Key words: semi-supervised robust probabilistic partial least squares multirate monitoring index

1 引言

工业发展关系到国民经济命脉，而生产安全和产品质量一直是工业生产过程追求的两大目标.而对过程进行全面有效地监控是确保生产安全和提高产品质量的关键^[1-2].多元统计监控方法是一种基于数据驱动的方法，通过对大量过程数据进行分析，判断过程正常运行程度或故障，从而指导实际生产，因此得到广泛应用^[3-4].偏最小二乘(partial least squares，PLS)是常用的统计建模方法，将高维数据投影到低维独立的主元空间，并通过对主元空间和噪声空间中统计量的分析，实现对过程的监控^[5]，但PLS模型没有考虑到主元和残差的概率分布情况. Li等将概率分布引入PLS模型提出概率偏最小二乘(probabilistic partial least squares，PPLS)方法^[6]，在主元和误差都服从高斯分布的条件下，通过求解极大似然函数得到模型参数.考虑到工业过程中，环境恶劣，离群值遍布，而离群值会严重影响高斯分布的期望和方差，从而导致模型鲁棒性较差，陈等提出鲁棒概率偏最小二乘(robust probabilistic partial least squares，RPPLS)方法^[7]，采用T分布代替高斯分布，通过调整自由度参数，使模型对于离群数据的鲁棒性更好.

而在实际工业生产过程中，由于过程变量的采样率较高，而一些关键质量变量如产品浓度等，在线直接检测十分困难而且精度不高，需要通过实验室仪器离线分析得到，从而导致多采样率的问题，即输入输出采样时间间隔不一样.针对2采样率过程问题，降采样率方法是一种最简单的方法，即将所有变量的采样率都降低到系统的最低采样率，通过降采样把多采样数据转变成单采样率数据，这样就可以采用一般基于数据驱动的方法建立模型. Facco等^[8]提出通过降采样办法建立多采样率过程的动态模型.但是经过降采样率处理后，高采样率的有用数据大量丢失，使得建立的模型准确性大大降低.针对降采样率方法的不足，本文引入半监督学习方法，将完整数据集合H分成少量标记数据H₁和大量未标记数据H₂，其中H₁中一个过程数据对应一个质量数据，H₂仅有过程数据而没有质量数据，经过处理后，H₁和H₂都是样本数一致的数据，然后分别用来建立模型，并通过充分提取大量未标记数据中的隐含信息来提高整个模型的准确性^[9-10].

基于文[11]，本文在鲁棒PPLS模型中，引入半监督方法，提出一种半监督鲁棒概率偏最小二乘方法，把完整数据集合分成标记数据和未标记数据，然后分别用这两组样本数一致的数据建立鲁棒PPLS模型，并通过充分挖掘未标记数据隐含的有用信息来提高模型的准确性.在建立半监督鲁棒PPLS模型时，考虑到模型参数包括主元分布的参数、自由度、均值和方差均未知，故引入最大期望(EM)算法进行参数估计.更进一步，基于半监督RPPLS模型，通过构建GT²和SPEx和SPEy三个监控指标，将半监督鲁棒PPLS引入到过程监控分别对主元空间、过程变量的噪声空间和质量变量的噪声空间进行监控，判断过程运行状况.最后将半监督鲁棒PPLS和降采样率鲁棒PPLS分别应用在TE过程监控，对比前11种故障监控结果表明，半监督鲁棒PPLS比降采样鲁棒PPLS监控效果更好.

2 RPPLS模型 2.1 T分布表达形式

假设变量x={x_n|x_n∈R^D_x}_n=1^N服从均值为μ，自由度为ν的T分布，其中D_x为数据维数，N为数据样本个数，则x的概率密度函数可以表示如下^[12-13]：

(1)

式(1)中，矩阵Σ是正定矩阵，当ν>1，μ为均值向量，当ν>2时，协方差矩阵等于νΣ/(v-2). Γ(·)表示Gamma函数，其概率密度函数定义为： T分布通过调整自由度ν的大小，可以改变拖尾宽度，当ν→∞时，t(μ，Σ，ν)就是N(μ，Σ)，所以正态分布可以看成是T分布的一种特殊形式.

2.2 RPPLS模型

假设经过归一化后的数据过程变量和输出变量分别为X={x_n|x_n∈R^D_x}_n=1^N，Y={y_n|y_n∈R^D_y}_n=1^N，其中D_x、D_y分别为过程变量和输出变量个数，N为数据样本个数，RPPLS模型可以表示成如下形式：

(2)

(3)

其中：P∈R^D_x×K，C∈R^D_y×K，K＜D_x为因子个数，μ_x，μ_y分别为X，Y的均值，而噪声满足ξ_n~t(0，σ_x²I_{D_x}，ν)，ε_n~t(0，σ_y²I_{D_y}，ν)，主元满足t_n~t(0，I_K，ν).

直接用T分布计算十分繁琐，考虑引入中间随机变量u_n，当u_n服从伽马分布，则服从T分布的变量x关于u_n的条件分布x|u_n服从正态分布.通过引入u_n可以把T分布转化成正态分布计算，具体转化过程如下：

(4)

(5)

(6)

(7)

在RPPLS模型中需要估计的参数有Θ=(P，C，μ_x，μ_y，σ_x²，σ_y²，ν). EM算法^[14]是一种在数据缺失条件下比较有效的参数估计方法，将模型中主元t_n和u_n当作缺失数据，符合EM算法应用条件，故采用EM算法对模型的未知参数进行估计. EM算法的收敛性证明可参考文[15].具体步骤如下：在给定样本X，Y的情况下，可以得到完整数据的似然函数如下：

(8)

根据p(t_n，u_n|x_n，y_n)的期望值可以求出L(Θ)的期望值，然后对L(Θ)求偏导，求出更新值. E步和M步的具体迭代公式可参考文[7]，EM算法的具体仿真过程参考算法1.

算法1：基于RPPLS模型的EM算法
输入：X，Y，ν，K
1.	标准化：X，Y
2.	参数初始化：
	，，σ_x=1，σ_y=1 k=0，P=X(：，1:K)，C=Y(：，1:K)
3.	计算E步：
	Q(Θ，Θ_k)=E_{p(t_n，u_n\|z_n；Θ_k)}(ln(p(z_n\|t_n，u_n))
4.	计算M步：

5.	当\|L(Θ_k+1)-L(Θ_k)\|>10^-5，k=k+1，跳转到第3步.
6.	结束.

2.3 问题分析

考虑到在实际工业生产过程中，过程变量的采样率一般较高，而一些关键质量变量如产品浓度等，在线直接检测十分困难而且精度不高，需要通过实验室仪器离线分析得到，从而导致多采样率的问题.对于多采样率问题，最简单的方法是降采样率，但是经过降采样率处理后的高采样率的有用过程数据大量丢失，使得建立的模型准确性大大降低.而按输入输出数据可以将模型分为监督、半监督、无监督三类.其中数据只有输入{x_i}而无输出的模型为无监督方法；对于既有输入{x_i}又有输出{y_i}，并且一一对应的模型为监督方法；而既有输入{x_i}又有输出{y_j}，但是{x_i}采样率高、样本点多，{y_j}的采样率低、样本点少则为半监督方法.针对多采样率问题，考虑到鲁棒PPLS方法的不足，本文引入半监督方法，提出一种半监督RPPLS算法，将多样率数据分成和采样率一样的标记数据和未标记数据，然后分别用这两组样本数一致的数据建立RPPLS模型，并通过充分挖掘未标记数据隐含的有用信息来提高模型的准确性.

3 半监督RPPLS模型

假设经过归一化后的数据输入变量和质量变量分别为：X={x_n|x_n∈R^D_x}_n=1^K，Y={y_n|y_n∈R^D_y}_n=1^N，其中D_x，D_y分别表示输入变量和质量变量个数，N＜K为样本采样数，半监督RPPLS模型可以表示成：

(9)

(10)

基于文[11]，按照图 1，把完整数据集合H分成标记数据H₁和无标记数据H₂，而处理后的H₁和H₂均为样本数一致的数据，可以用传统的方法计算，具体分类可表示如下：

图 1 基于半监督方法的数据分类图 Figure 1 Data classification chart based on semi-supervised method

图选项

(11)

完整的似然函数也可以分为两部分：

(12)

在半监督RPPLS模型中，未知待估计的参数有Θ=(P，C，μ_x，μ_y，σ_x²，σ_y²，ν)，由于模型中含有隐含变量t_n、u_n，同样采用EM算法进行参数求解.由式(12)，将完整似然函数分成两个部分进行求解，一部分类似于求解RPPLS模型参数，另一部分类似求解RPPCA模型参数.

对于L₁部分，主元t_n关于z_n、u_n的后验分布以及u_n关于z_n的后验分布计算公式为

(13)

(14)

其中，，μ_x=(μ_xn，μ_xk)，，，，A=(WW^T+Φ)^-1，B=(I+W^TΦ^-1W)^-1.

同理，对于L₂部分，主元t_k关于x_k，u_k的后验分布以及u_k关于x_k的后验分布计算公式为

(15)

(16)

其中，C=(PP^T+Φ_x)^-1，L=(I+P^TΦ_x^-1P)^-1.

E步：对于L₁部分，参考上文RPPLS参数求解过程可以直接得到：

(17)

(18)

(19)

(20)

(21)

对于L₂部分，类似求解RPPCA模型，参考文[15]，可以得到：

(22)

(23)

(24)

(25)

(26)

M步：要求出使〈L(Θ)〉在取得极大值情况下的来更新旧值Θ，即对各需要更新的参数求偏导并使偏导数等于0，可得到的参数迭代公式：

(27)

(28)

(29)

(30)

(31)

(32)

(33)

(34)

反复进行E步和M步，直到算法收敛，得到更新值，半监督RPPLS模型建立完成. EM算法的具体过程参考算法2.

算法2：基于半监督RPPLS模型的EM算法
输入：X，Y，ν，K
1.	标准化：X，Y
2.	数据重组：将数据分为标记数据和为标记数据
3.	参数初始化：
	，，，σ_x=1，σ_y=1，k=0，P=X(：，1:K)，C=Y(：，1:K)
4.	计算E步：
	Q(Θ，Θ_k)=E_{p(t_n，u_n\|z_n；Θ_k)}(ln(p(z_n\|t_n，u_n))+ E_{p(t_k，u_k\|x_k；Θ_k)}(ln(p(x_k\|t_k，u_k))
5.	计算M步：

6.	当\|L(Θ_k+1)-L(Θ_k)\|>10^-5，k=k+1，跳转到第4步
7.	结束

4 基于半监督RPPLS模型的监控

下文将提出GT²、SPEx和SPEy三个监控指标分别对主元空间和残差空间进行监控，这3个指标是在主元和残差服从T分布的条件下构建的，不仅能对含离群值数据进行监控，而且可以对多采样率过程进行监控.本文对半监督鲁棒PPLS和降采样鲁棒PPLS的监控，都将采用这3个监控指标.

4.1 对主元空间的监控

主元反映了影响过程变化的主要因素，半监督RPPLS模型通过对主元空间的监控，来判断过程的运行状况.当采集到一个新的样本数据x_new时，可以得到主元期望：

(35)

参考文[17]，则GT²定义为

(36)

上式中，χ_(1-α，k)²表示自由度为k，显著性水平为α的卡方分布的值，即χ_(1-α，k)²为GT²在显著性水平为α的控制线.

4.2 对噪声空间的监控

噪声反映了过程变量与模型的拟合程度，半监督RPPLS模型通过对噪声空间进行监控来判断过程是否出现故障.由于质量变量的采样率比较大，而过程变量采样率比较小，故本文提出SPEx和SPEy两个监控指标分别对过程变量的噪声空间和质量变量的噪声空间进行监控.

4.2.1 对过程变量噪声空间的监控

由于过程变量采样率比较小，故能对过程进行完整监控.当采集到新的输入数据x_new时，参考文[17]，监控指标SPEx定义为

(37)

(38)

4.2.2 对质量变量噪声空间的监控

由于质量变量的采样率比较大，故对于质量空间的噪声监控只能在有限的样本点处监控.参考文[18]，监控指标SPEy定义为

(39)

(40)

其中，输入x为经过标记的输入数据，y_new为新的输出数据，而控制线参数的计算参考文[19]，具体可由式(41)~式(42)得到：

(41)

(42)

5 实例验证分析 5.1 数值仿真

设计一个多采样过程，其中该过程有8个过程变量，3个输出变量，分别有4个隐含变量线性组合而成，关系式为

(43)

(44)

其中，隐含变量t_i(i=1，…，4)服从标准正态分布；噪声变量e_i(i=1，…，8)和f_i(i=1，…，3)均服从均值为0，方差为10^-4；x₁~x₈采样间隔为1，共生成1 500组数据，第1 000组数据在变量x₃上引入一个幅值为2的阶跃故障；y₁~y₃采样间隔为10共生成150组数据，其中，前500组过程数据和50组输出数据用于建模，其余1 000组过程数据和100组输出数据用于测试.分别用半监督RPPLS和降采样RPPLS的监控结果如图 2、图 3所示.

图 2 基于降采样RPPLS对数值仿真的监控图 Figure 2 Monitoring charts for numerical case based on down-sampling RPPLS

图选项

图 3 基于半监督RPPLS对数值仿真的监控图 Figure 3 Monitoring charts for numerical case based on semi-supervised RPPLS

图选项

由图 2、图 3可得：图 2(a)和图 3(a)均不能检测出故障；而图 2(b)也没能检测出故障，图 3(b)在500时刻超出控制限，所以半监督RPPLS通过SPEx指标能准确检测出故障；同样图 2(c)在680时刻超出控制限，图 3(c)在520时刻超出控制限，所以半监督RPPLS的SPEy指标对故障的产生更敏感.其次，图 2(b)漏报率将近1，而图 3(b)漏报率分别为0.413 2，故半监督RPPLS能有效降低漏报率.

5.2 TE过程仿真

田纳西—伊斯曼过程(TEP)是一个评价监控方法有效性的仿真平台.该过程每仿真一次，可以得到52个测量变量数据，并且可以通过预设定21种故障模式，得到用于监控的故障数据，关于TE过程的详细介绍参考文[20].本文对过程变量采样均为3 min一次，而对质量变量每30 min采样一次，即可以得到10%的标记数据和90%的未标记数据.其中，建模数据是通过每次仿真25 h，每次可以得到500组正常过程变量数据和50组质量变量数据；而监控数据通过是每次运行48 h，每一次运行可以得到960组过程数据和96组质量数据.本文取TE过程的故障1为例，来比较半监督RPPLS和降采样RPPLS的监控效果.

建立半监督RPPLS和降采样RPPLS模型时，参考文[21]，选取A进料(流1)、D进料(流2)、E进料(流3)等16个容易检测的过程变量为输入变量，变量详情见表 1，取TE过程变量XMEAS(29)~XMEAS(36)共8个变量为质量变量.由交叉验证方法，本文的主元个数都选取为9个.然后分别将用完整数据建立的半监督RPPLS和仅用10%标记数据建立的降采样RPPLS应用于TE过程监控.本文取故障1为例，得到半监督RPPLS和降采样RPPLS模型的监控图分别如图 4、图 5所示.

表 1 TE过程16个过程变量 Table 1 16 monitoring variables in TE process

变量	描述
1	A进料(流1)
2	D进料(流2)
3	E进料(流3)
4	总进料(流4)
5	再循环流量(流8)
6	反应器进料速度(流6)
7	反应器温度
8	排放速度(流9)
9	产品分离器温度
10	产品分离器压力
11	产品分离器塔底流量(流10)
12	气提器压力
13	气提器温度
14	气提器塔底流量(流11)
15	反应器冷却水出口温度
16	分离器冷却水出口温度

表选项

图 4 基于降采样RPPLS对故障1的监控图 Figure 4 Monitoring charts for fault 1 based on down-sampling RPPLS

图选项

图 5 基于半监督RPPLS对故障1的监控图 Figure 5 Monitoring charts for fault 1 based on semi-supervised RPPLS

图选项

比较图 4、图 5，可得：图 4(a)的GT²值，图 4(b)的SPEx值和图 4(c)的SPEy值分别在采样时刻166、163、170时刻超出控制限，而图 5(a)的GT²值，图 5(b)的SPEx值和图 5(c)的SPEy值分别在采样时刻161、162、170时刻超出控制限，故障是在采样时刻160时引入，这就表明半监督RPPLS模型能更及时准确地判断故障的发生.其次，图 4(a)GT²的漏报率为0.227 2，图 4(b)SPEx的漏报率为0.003 7，图 4(c)SPEy的漏报率为0.864 2，而图 5(a)GT²的漏报率为0.058 7，图 5(b)SPEx的漏报率为0.002 5，图 5(c)SPEy的漏报率为0.839 5，半监督RPPLS漏报率明显低于降采样RPPLS.综上，半监督RPPLS通过提取大量未标记数据中的有用信息，提高了模型的准确性，不仅能更准确检测故障的产生，而且能更有效降低故障的漏报率.

最后分别用降采样RPPLS和半监督RPPLS对TE过程前11种故障模式进行监控，故障详细描述见表 2，故障均在采样时刻160处引入，监控效果如表 3、表 4，表中给出了3个监控指标对11种故障漏报率的监控情况.

表 2 TE过程故障描述 Table 2 Process fault description in TE process

故障	描述	故障类型
1	A/C进料比率，B成分不变(流4)	阶跃
2	B成分，A/C进料比率不变(流4)	阶跃
3	D的进料温度(流2)	阶跃
4	反应器冷却水的入口温度	阶跃
5	冷凝器冷却水的入口温度	阶跃
6	A进料损失(流1)	阶跃
7	C存在压力损失—可用性降低(流4)	阶跃
8	A、B、C进料成分(流4)	随机变量
9	D的进料温度(流2)	随机变量
10	C的进料温度(流4)	随机变量
11	反应器冷却水的入口温度	随机变量

表选项

表 3 基于降采样率RPPLS对11种故障模式的漏报率监控表 Table 3 Monitoring tables for 11 faults based on down-sampling RPPLS

故障	GT²	SPEx	SPEy
1	0.227 2	0.003 7	0.864 2
2	0.049 9	0.025 0	0.629 6
3	0.887 6	0.927 6	0.703 7
4	0.942 6	0.950 1	0.703 7
5	0.712 9	0.739 1	0.765 4
6	0.010 0	0.013 7	0.123 5
7	0.534 3	0.665 4	0.765 4
8	0.051 2	0.056 2	0.617 3
9	0.921 3	0.925 1	0.703 7
10	0.509 4	0.277 2	0.703 7
11	0.905 1	0.902 6	0.716 0

表选项

表 4 基于半监督RPPLS对11种故障模式的漏报率监控表 Table 4 Monitoring tables for 11 faults based on semi-supervised RPPLS

故障	GT²	SPEx	SPEy
1	0.058 7	0.002 5	0.839 5
2	0.033 7	0.017 5	0.469 1
3	0.717 9	0.957 6	0.716 0
4	0.815 2	0.953 8	0.679 0
5	0.596 8	0.786 5	0.790 1
6	0.007 5	0.012 5	0.135 8
7	0.407 0	0.732 8	0.765 4
8	0.036 2	0.054 9	0.617 3
9	0.767 8	0.958 8	0.716 0
10	0.339 6	0.253 4	0.617 3
11	0.742 8	0.930 1	0.654 3

表选项

对比表 3和表 4，半监督RPPLS模型GT²的漏报率在大多数情况低于降采样的GT²的漏报率，原因是通过提取大量未标记数据的有用信息使半监督RPPLS模型的GT²的监控效果得到提高.半监督RPPLS监控指标SPEx并没有比降采样监控指标SPEx监控效果更好.而对于监控指标SPEy，表 3和表 4的SPEy值都接近1，说明SPEy指标监控并不准确，对于降采样RPPLS模型，由于降采样使质量变量的有用数据大量丢失导致监控不准，而对于半监督RPPLS模型，虽然可以通过提取未标记数据的有用信息使半监督RPPLS模型的准确性更好，但大量未标记数据淹没了少量质量变量提供的有用信息导致监控不准确.

6 结论

考虑到多采样率对模型的影响，本文引入半监督方法，提出半监督RPPLS模型，能有效处理输入输出样本数不一致的问题，通过提取大量未标记数据的有用信息使模型的准确性得到了提高.通过降采样RPPLS和半监督RPPLS在TE过程中的监控应用表明：首先，将采样率不一致的完整数据用于建模使建立的模型准确性更高；其次，采用EM算法能够较准确地估计模型的未知参数；最后，本文提出GT²、SPEx、和SPEy三个监控指标，能够准确及时地反映出多采样率过程的故障变化情况.

参考文献

[1]	Ge Z Q, Song Z H, Gao F R. Review of recent research on data-based process monitoring[J]. Industried & Engineering Chemistry Research, 2013, 52(10): 3543–3562.

[2]	Qin S J. Statistical process monitoring:Basics and beyond[J]. Journal of Chemometrics, 2003, 17(8/9): 480–502.

[3]	谢彦红, 孙呈敖, 李元. 基于滑动窗口SVDD的间歇过程故障监测[J]. 信息与控制, 2015, 44(5): 531–537. Xie Y H, Sun C G, Li Y. Fault monitoring of batch process based on moving window SVDD[J]. Information and Control, 2015, 44(5): 531–537.

[4]	张成, 李元, 高宪文. 基于稀疏距离的间歇过程故障检测方法[J]. 信息与控制, 2014, 43(5): 588–595. Zhang C, Li Y, Gao X W. Fault-detection method for batch process based on sparse distance[J]. Information and Control, 2014, 43(5): 588–595.

[5]	Mehmood T, Liland K H, Snipen L. A review of variable selection methods in partial least squares regression[J]. Chemometrics and Intelligent Laborary Systems, 2012, 118: 62–69. DOI:10.1016/j.chemolab.2012.07.010

[6]	Li S, Gao J, Nyagilo J O, et al. Probabilistic partial least square regression:A robust model for quantitative analysis of raman spectroscopy data[C]//IEEE International Conference on Bioinformatics and Biomedicine. Piscatawy, NJ, USA:IEEE, 2011:526-530. http://ieeexplore.ieee.org/document/6120496/

[7]	陈家益, 赵忠盖, 刘飞. 鲁棒PPLS模型及其在过程监控中的应用[J]. 化工学报, 2016, 67(7): 2907–2915. Chen J Y, Zhao Z G, Liu F. Robust PPLS model and its applications in process monitoring[J]. Journal of Chemical Industry and Engineering, 2016, 67(7): 2907–2915.

[8]	Facco P, Doplicher F, Bezzo F, et al. Moving average PLS soft sensor for online product quality estimation in an industrial batch polymerization process[J]. Journal of Process Control, 2009, 19(3): 520–529. DOI:10.1016/j.jprocont.2008.05.002

[9]	Wang S, Lu J F, Gu X J, at al. Semi-supervised linear discriminant analysis for dimension reduction and classification[J]. Pattern Recognition, 2016, 57: 179–189. DOI:10.1016/j.patcog.2016.02.019

[10]	王兵, 许少华, 孟耀华. 基于半监督竞争学习过程神经网络的抽油机故障诊断[J]. 信息与控制, 2014, 43(2): 235–240. Wang B, Xu S H, Meng Y H. Fault diagnosis of pumping unit based on semi-supervised competitive learning process neural network[J]. Information and Control, 2014, 43(2): 235–240.

[11]	Zhou L, Chen J H, Song Z H, at al. Semi-supervised PLVR models for process monitoring with unequalsample sizes of process variables and quality variables[J]. Journal of Process Control, 2015, 26: 1–16. DOI:10.1016/j.jprocont.2014.11.013

[12]	Murphy K P. Machine learning:A probabilistic perspective[M]. London, UK: MIT Press, 2012: 46-49.

[13]	Liu C H, Rubin D B. ML estimation of the t distribution using EM and its extensions, ECM and ECME[J]. Statistica Sinica, 1995, 5(1): 19–39.

[14]	Stoica P, Xu L Z, Li J. A new type of parameter estimation algorithm for missing data problems[J]. Statistics & Probability Letters, 2005, 75(3): 219–229.

[15]	Chung Y, Lindsay B G. Convergence of the EM algorithm for continuous mixing distributions[J]. Statistics & Probability Letters, 2015, 96: 190–195.

[16]	Archambeau C, Delannay N, Verleysen M. Robust probabilistic projections[C]//Proceedings of 23rd International Conference on Machine Learning. New York, USA:ACM, 2006:33-40. https://dl.acm.org/citation.cfm?id=1143849

[17]	Kim D, Lee I B. Process monitoring based on probabilistic PCA[J]. Chemometrics and Intelligent Laboratory Systems, 2003, 67(2): 109–123. DOI:10.1016/S0169-7439(03)00063-7

[18]	赵忠盖, 刘飞. 因子分析及其在过程监控中的应用[J]. 化工学报, 2007, 58(4): 970–974. Zhao Z G, Liu F. Factor analysis and its application to process monitoring[J]. Journal of Chemical Industry and Engineering, 2007, 58(4): 970–974.

[19]	Chiang L H, Russell E L, Braatz R. D. Fault detection and diagnosis in industrial systems[M]. Berlin, Germany: Springer, 2001: 99-121.

[20]	Zhou L, Chen J H, Song Z H, et al. Probabilistic latent variable regression model for process-quality monitoring[J]. Chemical Engineering Science, 2014, 116: 296–305. DOI:10.1016/j.ces.2014.04.045

http://dx.doi.org/10.13976/j.cnki.xk.2017.0712
中国科学院主管，中国科学院沈阳自动化研究所、中国自动化学会共同主办。

文章信息

陈家益, 赵忠盖, 刘飞

CHEN Jiayi, ZHAO Zhonggai, LIU Fei

半监督鲁棒概率偏最小二乘模型及其在多采样率过程监控中的应用

Semi-supervised Robust Probabilistic Partial Least Squares Model and Its Applications to Multi-rate Process Monitoring

信息与控制, 2017, 46(6): 712-719.

Information and Control, 2017, 46(6): 712-719.

http://dx.doi.org/10.13976/j.cnki.xk.2017.0712

文章历史

收稿/录用/修回: 2016-10-08/2016-12-20/2017-02-10

文章信息

文章历史

工作空间