2. 沈阳化工大学信息学院, 辽宁 沈阳 110142
2. College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, China
0 引言
为增加企业竞争优势、摆脱单一的生产方式,工业生产存在多个运行模态[1-2].多模态过程数据具有不同的均值和协方差结构[3],为保证生产安全,需要对多模态运行过程进行实时监控.传统的多元统计监控方法,如主成分分析方法(principal component analysis,PCA)[4]、偏最小二乘方法(partial least squares,PLS)[5],都是假设系统运行在单一模态下[6-7].因此,直接将传统的多元统计过程监控方法应用于多模态生产过程,将会导致高误报率与高漏报率,影响产品质量.
Tax[8]等提出支持向量数据描述(support vector data description,SVDD)算法,此方法最早是应用于一阶分类问题.随着研究的深入,学者们将该方法应用于过程监控领域[9-13].相较于多元统计方法,该方法可以很好地处理过程混合信息,而且又对非线性、非高斯问题具有较高的处理能力,但它是一种单模态故障检测方法,对多模态过程故障的检测存在局限性.为提高SVDD对多模态过程故障的检测能力,学者们提出了多种SVDD多模态故障检测方法.采用比较多的是多个局部模型方法,Zhao[14]等提出建立多个局部模型对多模态过程进行监控的方法,该方法对于处理多工况过程具有良好的效果,但是离线建模时模型个数的先验知识很难获得;针对上述问题,Zhao[15]等提出全局建模的思想,然而由于系统的内部环境或传感器的性能原因导致训练数据被离群点污染时,该方法的检测性能将会大大降低;为了解决这类问题,Li[16]等提出基于局部密度加权SVDD方法,主要应用于连续过程故障检测.
本文根据多模态间歇过程数据的空间分布特点,提出一种近邻差分支持向量数据描述(NNDSVDD)检测方法.首先,考虑到SVDD算法不能剔除数据的多模态结构,利用近邻差分算法剔除数据的多模态结构实现模态统一;然后,在单一模态下建立SVDD模型,计算模型的超球半径,相较于传统的监控多模态过程的多模型监控策略,NNDSVDD算法不需要利用先验知识建立局部模型;最后,计算测试数据的统计值将其与半径比较确定测试数据的状态.通过数值模拟例子和半导体生产过程的仿真实验验证本文方法的有效性.
1 支持向量数据描述支持向量数据描述[17]的基本思想是:将数据集X={xi,i=1,…,m},通过非线性转换Φ从原始空间投影到特征空间,找到一个几乎包含所有数据样本的最小体积超球体. a是超球体的球心,R是超球体的半径.考虑测量误差或者噪音等干扰引起的离群点影响,引入松弛变量ζ,C是惩罚参数.此问题可描述为
(1) |
上述问题可以转化为解决相应的对偶问题
(2) |
其中,α是拉格朗日因子.
用核函数K(xi,xj)代替內积〈Φ(xi)·Φ(xj)〉来实现低维空间的非线性向高维空间的线性问题的转换,可得
(3) |
利用二次规划,可以求出αi,如果0 < αi < C,则说明目标数据在超球面上,此时该点为支持向量;如果αi=0,则说明目标数据在超球体内;如果z是支持向量,则超球体的半径和球心为
(4) |
对于新的样本xnew,其到超球球心的距离可表示为
(5) |
如果Dnew < R则该样本为正常样本,否则为故障样本.
2 基于最近邻差分的SVDD算法(NNDSVDD) 2.1 差分算法在不同的模态中,数据的中心随着模态的不同而变化,近邻差分的方法是通过统一不同模态的中心达到模态的统一.设正常数据集X∈Rm×n包含M个模态(m代表采样次数,n代表测量变量个数),首先,在训练集中为每一个样本xi=[x1x2…xn],i=1,2,…,m,寻找xi的最近邻样本xi,j1,然后利用式(6)进行差分运算
(6) |
式中,i为当前样本的序号,XNN为差分矩阵.正常情况下,由于样本xi与其最近邻xi,j1在空间中的位置接近,所以差值会分布在原点的周围.如果xi,j1是故障数据,所得的差值会远离原点.
通过一个多模态数值仿真实验验证差分算法具有剔除数据多模态的特性.数值例子中每个样本包含两个变量,第一个变量x1服从[0, 1]的均匀分布,第二个变量x2与变量x1线性相关,公式如下所示
(7) |
通过适当的坐标移动获得两个模态的数据. 图 1是两个模态的2个批次200个样本所构成的数据分布散点图.由图 1可以看出,数据具有多模态的特点. 图 2为数值例子进行差分运算后得到的数据分布散点图.
2.2 NNDSVDD算法的多模态故障检测运用NNDSVDD算法进行多模态过程故障检测包括前期建模和故障检测两个部分:
2.2.1 建模阶段1) 采集工业正常运行过程中的数据X∈Rm×n.
2) 找到数据集中第i个样本xi的最近邻xi,j1,利用式(6)进行差分运算得到差分矩阵XNN;
3) 对差分矩阵XNN通过式(4)计算模型统计量R.
2.2.2 故障检测1) 对于新到来的数据xinew,在训练数据中找到xinew最近邻样本并进行差分运算得到新的差分矩阵XnewNN.
2) 对新的差分矩阵XnewNN利用式(5)计算每个样本到超球球心的距离D.
3) 将D与R进行大小比较来判断当前数据是否发生故障.算法的整体流程如图 3所示.
3 仿真实验 3.1 数值仿真Ge[18]等提出了一个典型的多模态模型,很多学者用此模型检测算法的有效性[19],本文采用此模型来检测NNDSVDD算法的效果,模型的结构如下所示.
(8) |
其中包括5个变量x1、x2、x3、x4、x5.因为s1、s2分布不同,模型有两种模态. e1、e2、e3、e4、e5是5个相互独立的噪声.均服从均值为0,标准差为0.01的高斯分布.
(9) |
两种模态下分别产生400个样本组成正常训练数据集.设定以下故障:系统运行在模态1下,t=401时刻起给x5加一个幅值为4的阶跃信号.测试数据集中前400个为校验数据,后400个为故障数据. 图 4(a)是原始数据的三维图像,图 4(b)为数据经差分后的三维图像.由图 4(a)、4(b)看出经过差分处理可以剔除数据的多模态形式.
图 5(a)、5(b)为两种方法的检测结果.检测前400个正常数据时,SVDD产生了误报.检测后400个故障数据时,由于SVDD在数据预处理阶段利用Z-SCORE方法处理数据,不能将正常数据与故障数据分离,故障检测出现延迟,漏报现象明显.由图 4(b)可以很清晰地看出NNDSVDD在数据预处理阶段已经将正常数据和故障数据分离开,所以SVDD对产生的阶跃故障能够进行及时的检测.另外,SVDD在前期数据处理阶段利用Z-SCORE方法标准化数据却没有剔除数据的多模态形式,因此,后期需要浪费大量的时间调参,增加额外工作量,浪费大量的有用计算时间.
数值实例检测结果如表 1所示,可以看出,NNDSVDD的检测结果明显优于SVDD.
本文所用的半导体数据[20-22]来源于美国德州仪器公司的半导体生产过程实际数据.该数据是由3个阶段的108个正常批次和21个故障批次组成.由于第二阶段的1个正常批次和1个故障批次有大量的数据缺失,只有107个正常批次和20个故障批次是有效的.本文选取17个过程变量用于故障检测方法的仿真实验,如表 2所示.选取101个正常批次来建模,其中正常校验批次为6个,故障批次为21个.每个批次是不等长的,持续时间在95 s~112 s之间变化,图 6(a)给出了107个批次不同时间同一变量Enpdatde A的轨迹分布图.
序号 | 过程变量 | 序号 | 过程变量 |
1 | BC13流量 | 10 | RF功率 |
2 | C12流量 | 11 | RF阻抗 |
3 | RF底部功率 | 12 | TCP调谐 |
4 | A检测端点 | 13 | TCP相位误差 |
5 | 氦压力 | 14 | TCP阻抗 |
6 | Helium压强 | 15 | TCP顶部功率 |
7 | RF调谐 | 16 | TCP负荷 |
8 | RF负荷 | 17 | Vat阀门 |
9 | 相对误差 |
解决间歇过程批次不等长问题,传统的统计分析方法通常都是采用最短长度法.这种方法简单,但会使数据的过程信息大量丢失,并且使数据的相关性降低.为了提高NNDSVDD针对不等长间歇过程故障的检测能力.本文首先采用统计模量分析算法对多模态数据进行预处理[23],所有的统计特征将会组合成一个(1×2m)维的特征向量,然后对统计模量进行差分运算,最后对所得到的统计差分数据矩阵计算相应的统计量值与控制限进行比较,判断检测结果.
图 6(a)、6(b)分别给出了变量Enpdatde A不同时刻的原始轨迹图像及差分之后的图像.由图可以看出半导体数据具有3个模态,经差分处理之后3个模态可以归于一个模态.
图 7(a)、7(b)为SVDD及NNDSVDD对27批数据的检测结果.图中实线为控制限R.半导体数据前6批为正常校验批次,从第7批开始为故障批次,由图 7(a)可以看出,SVDD算法在故障发生后多个批次的统计值均低于控制限,漏报现象明显,而NNDSVDD算法的故障检测结果明显优于SVDD.
两种算法对21批故障的检测结果如表 3所示,可以看出NNDSVDD的检测结果明显优于SVDD,NNDSVDD采用统计模量方法处理批次数据,与传统SVDD算法采用最短长度法处理批次数据相比,数据轨迹的过程信息不会丢失,也不会削弱数据间的相关性,大大提高对故障的检测能力.另外,统计模量方法在计算复杂度上要优于最短长度法,间接降低了NNDSVDD算法的复杂度.
故障 | SVDD | NNDSVDD |
1 | √ | √ |
2 | × | √ |
3 | √ | √ |
4 | × | √ |
5 | × | √ |
6 | √ | √ |
7 | √ | √ |
8 | √ | √ |
9 | √ | √ |
10 | √ | √ |
11 | √ | √ |
12 | √ | √ |
13 | √ | √ |
14 | √ | √ |
15 | √ | √ |
16 | √ | √ |
17 | × | √ |
18 | √ | √ |
19 | √ | √ |
20 | √ | √ |
21 | √ | √ |
故障检测率/% | 81 | 100 |
本文所提出的NNDSVDD算法是一种应用于多模态间歇过程的故障检测方法,通过利用差分方法处理多模态数据,有效地解决了SVDD检测多模态过程效果不佳的问题,提高了SVDD的检测能力.从半导体生产过程的仿真实验结果(如表 3)看到,故障检测率由81%提高到100%,验证了本文方法的有效性.今后针对多模态过程故障定位的有关问题,我们将进行深入研究.
[1] | Ge Z Q, Song Z H. Multimode process monitoring based on Bayesian method[J]. Journal of Chemometrics, 2009, 23(12): 636–650. |
[2] | Yu J, Qin S J. Multimode process monitoring with Bayesian inference-based finite Gaussian mixture models[J]. AIChE Journal, 2008, 54(7): 1811–1829. DOI:10.1002/(ISSN)1547-5905 |
[3] |
周东华, 李钢, 李元.
数据驱动的工业过程故障检测与诊断技术[M]. 北京: 科学出版社, 2011: 1-76.
Zhou D H, Li G, Li Y. Fault detection and diagnosis technology of industrial process based on data driven[M]. Beijing: Science Press, 2011: 1-76. |
[4] | Wold S, Esbensen K, Geladi P. Principal component analysis[J]. Chemometer and Intelligent Laboratory Systems, 1987, 2(1/2/3): 37–52. |
[5] | Nomikos P, Macgregor J F. Multi-way partial least squares in monitoring batch processes[J]. Chemometer and Intelligent Laboratory Systems, 1995, 30(1): 97–100. |
[6] | Qin S J. Statistical process monitoring:Basics and beyond[J]. Journal of Chemometrics, 2003, 17(8): 480–502. |
[7] | Ge Z Q, Song Z H, Gao F R. Review of recent research on data-based process monitoring[J]. Industrial & Engineering Chemistry Research, 2013, 52(10): 3543–3562. |
[8] | Tax D M J, Duin R P W. Support vector domain description[J]. Pattern Recognition Letters, 1999, 11(20): 1191–1199. |
[9] | Liu B, Xiao Y S, Cao L B, et al. SVDD-based outlier detection on uncertain data[J]. Knowledge and Information Systems, 2013, 34(3): 597–618. |
[10] | Jiang Q C, Yan X F. Improved fault detection in nonlinear chemical processes using WKPCA-SVDD[J]. Korean Journal of Chemical Engineering, 2014, 31(11): 1935–1942. DOI:10.1007/s11814-014-0151-y |
[11] | Ren W Y, Li G H, Sun B L, et al. Unsupervised kernel learning for abnormal events detection[J]. Visual Computer, 2015, 31(3): 245–255. |
[12] | Huang J, Yan X F. Related and independent variable fault detection based on KPCA and SVDD[J]. Journal of Process Control, 2016(39): 88–99. |
[13] | Faruk S U, Hamidullah B, Mustafa I. Improving SVDD classification performance on hyperspectral images via correlation based ensemble technique[J]. Optics and Lasers in Engineering, 2017, 89: 169–177. DOI:10.1016/j.optlaseng.2016.03.006 |
[14] | Zhao S J, Zhang J, Xu Y M. Monitoring of processes with multiple operation modes though multiple principal component analysis models[J]. Industrial & Engineering Chemistry Research, 2004, 43(22): 7025–7035. |
[15] | Zhao F Z, Song B, Shi H B. Multi-mode process monitoring based on a novel weighted local standardization strategy and support vector data description[J]. Journal of Central South University of Technology, 2016(23): 2896–2905. |
[16] | Li H, Wang H G, Fan W H. Multimode process fault detection based on local density ratio-weighted support vector data description[J]. Industrial & Engineering Chemistry Research, 2017(56): 2475–2491. |
[17] |
谢彦红, 孙呈敖, 李元.
基于滑动窗口SVDD的间歇过程故障监测[J]. 信息与控制, 2015, 44(5): 531–537.
Xie Y H, Sun C A, Li Y. Fault monitoring of batch process based on moving window SVDD[J]. Information and Control, 2015, 44(5): 531–537. |
[18] | Ge Z Q, Song Z H. Multimode process monitoring based on Bayesian method[J]. Journal of Chemometrics, 2009, 23(12): 636–650. |
[19] |
郭校根, 熊伟丽, 徐保国.
基于局部邻域标准化和贝叶斯推断的多工况过程监测[J]. 信息与控制, 2017, 46(1): 113–121.
Guo X G, Xiong W L, Xu B G. Multimode process monitoring based on local neighborhood standardization and Bayesian inference[J]. Information and Control, 2017, 46(1): 113–121. |
[20] | Lee S P, Chao A K, Tsung F, et al. Monitoring batch processes with multiple on-off steps in semiconductor manufacturing[J]. Journal of Quality Technology, 2011, 43(2): 142–157. |
[21] | He Q P, Wang J. Fault detection using the k-nearest neighbor rule for semiconductor manufacturing processes[J]. IEEE Transactions on Semiconductor Manufacturing, 2007, 20(4): 345–354. DOI:10.1109/TSM.2007.907607 |
[22] | Wise B M, Gallagher N B, Butler S W, et al. A comparison of principal component analysis, multiway principal component analysis, trilinear decomposition and parallel factor analysis for fault detection in a semiconductor etch process[J]. Journal of Chemometrics, 1999, 13(3/4): 379–396. |
[23] |
张成, 李元.
基于统计模量分析间歇过程故障检测方法研究[J]. 仪器仪表学报, 2013, 34(9): 2103–2110.
Zhang C, Li Y. Study on the fault-detection method in batch process based on statistical pattern analysis[J]. Chinese Journal of Scientific Instrument, 2013, 34(9): 2103–2110. |