文章快速检索  
  高级检索
工业大数据分析技术的发展及其面临的挑战
何文韬, 邵诚     
大连理工大学先进控制技术研究所, 辽宁 大连 116024
摘要: 信息技术的快速发展以及互联网的广泛应用,引发世界各国先后实施“再工业化”战略.互联网在数据传输、管理软件、信息化应用等方面的强力保障为包括物联网在内的各项技术应用打开了大门.通过新兴技术提升工业智能化水平,提升企业的竞争力,以智能制造为主导的全球化工业革命已提上日程,工业智能化将是构成未来工业体系的关键所在.以工业互联网为基础的工业大数据分析技术及应用将成为推动智能制造,提升制造业生产效率与竞争力的关键要素,是实施生产过程智能化、流程管理智能化、制造模式智能化的重要基础.本文对涉及工业大数据分析的数据存储与管理、数据处理技术、可视化技术等各项技术进行了分析和讨论,也对工业大数据分析技术的研究应用前景和面临的挑战进行了探讨.
关键词: 信息技术     智能化     智能制造     工业大数据     分析技术    
The Development and Challenges of Industrial Big Data Analysis Technology
HE Wentao, SHAO Cheng     
Institute of Advanced Control Technology, Dalian University of Technology, Dalian 116024, China
Abstract: The rapid development of information technology and the wide application of the Internet have triggered the implementation of "re-industrialization" strategy. The strong protection of the Internet in data transmission, management software, and information application opens the door for various technical applications including Internet of Things. A globalized industrial revolution led by intelligent manufacturing, enhanced industrial intelligence, and the competitiveness of enterprises through emerging technologies has been studied. Industrial intelligence will be center of the future industrial system. The industrial big data analysis technology and its applications based on industrial Internet will become the key elements for promoting intelligent manufacturing and enhancing manufacturing efficiency and competitiveness, as well as become the important basis for implementing intelligent production process, process management, and manufacturing modes. We analyze and discuss various technologies involved with industrial big data analysis, such as data storage and management, data processing technique, and also discuss the visualization technology for research prospects, and the challenges of industrial big data analysis technology.
Keywords: information technology     intelligent     intelligent manufacturing     industrial big data     analytic technique    

0 引言

工业是国民经济的主体,是强国之基.随着信息技术的迅猛发展,世界各国都在寻求技术突破,加大产品创新.在2011年国际金融危机后,发达国家先后实施“再工业化”战略,日本在《2014制造业白皮书》中提到重点发展机器人产业;德国发布“工业4.0”发展战略[1];美国成立工业互联网联盟,积极推动工业互联网[2]的发展,旨在形成开放的全球化工业网络.我国于2015年发布《中国制造2025》,旨在强化工业基础能力,促进产业转型升级,实现中国制造业的由大变强.这些战略的核心都是通过新兴技术提升工业智能化水平,提升企业的竞争力.以智能制造为主导的全球化工业革命已提上日程,工业智能化将是构成未来工业体系的关键所在.

智能制造是以工业生产数据分析、自动化技术为基础,贯穿生产过程、能源利用、物流储运、供应链服务等制造活动,并具有信息深度自感知、智慧优化自决策、精准控制自执行等功能,使制造活动达到安全、高效、低损耗、高产出的业务目标.换而言之,智能制造就是通过日益发展的新一代信息化技术结合现有工业生产水平,提高企业生产效率,缩减成本,实现智能化生产.

随着对智能制造的需求愈加迫切,工业大数据的技术及应用将成为推动智能制造,提升制造业生产效率与竞争力的关键要素,是实施生产过程智能化、流程管理智能化、制造模式智能化的重要基础,对智能制造的实施具有关键的推动作用.工业大数据技术的研究与突破,其本质目标就是从复杂的数据集中挖掘出有价值的信息,发现新的规律与模式,提高工业生产的效率从而促进工业生产模式的创新与发展.工业大数据从产品需求获取、产品工艺设计、产品研发、制造、运行甚至到报废的产品全生命周期过程中,在智能化设计、智能化生产、网络协同制造、个性化定制和智能化服务等众多方面都发挥着至关重要的作用.工业大数据是智能制造的关键技术,是使信息世界逼近物理世界,推动工业生产由生产制造向服务制造转型的重要基础.工业大数据在智能制造中的重要性如图 1[3]所示.

图 1 智能制造标准体系结构 Figure 1 Intelligent manufacturing standard architecture
1 工业大数据特征及其价值

传统大数据[4-5]主要指商业和互联网等行业的大数据,这些数据主要来源于门户网站、电商、社交网络、搜索引擎等,通过大数据分析,使用户有更好的产品体验,创造更大的商业价值.工业大数据[6]是指以工业数据为核心,围绕典型智能制造模式[7],从客户需求到产品设计、研发、工艺、制造、供应、销售、库存等整个产品生命周期的各个过程产生的数据以及相关技术和应用的总称.相比于传统大数据更注重数据的量,工业大数据更加注重数据的连续性,一是同一工业流程时间上的连续;二是各个工业流程的连续,即从产品设计到产品销售的整个工业流程的连续.工业大数据由大数据技术提供了技术和数据管理的支撑,但二者在数据采集、存储、分析、可视化等方面存在些许不同,二者区别如表 1[3]所示.

表 1 工业大数据与传统大数据区别 Table 1 Difference between big industrial data and traditional big data
环节 传统大数据 工业大数据
采集 主要通过电商平台和社交平台等网络媒介采集浏览以及关系数据,时效性要求不高 随着信息、通信技术的迅猛发展,通过传感器、通信感知、过程工业实时数据库等,对数据实时性要求高
处理 数据清洗和约简,去除大量不重要的垃圾数据 以工业软件为基础,完成数据格式的转换;更加注重数据处理后的数据质量,要求数据具有真实性、完整性和可靠性
存储 数据之间关联性不大,存储自由 数据之间关联性强,存储复杂
分析 有通用的大数据分析算法,分析数据相关性,精度和可靠性要求不高 分析、建模更为复杂,不同工业领域涉及到的分析方法差别很大,精度和可靠度要求相对高
可视化 只需展示数据分析结果 近乎透明化的分析结果可视化,还涉及3D工业场景的可视化,实时性强,并且预警和趋势可视

工业大数据可以借鉴更为成熟的传统大数据的分析流程及处理技术,实现工业的数据采集、数据存储、数据处理、可视化.例如在工业大数据的数据集成与数据存储环节,利用传统大数据技术实现数据的实时采集以及数据存储,并且实现数据的快速检索;除此之外,利用大数据处理技术的高性能计算能力,为工业大数据的快速查询及算法处理奠定良好的性能基础.具体的工业大数据技术将在后文中予以介绍.

工业大数据除上述特征外,还具有以下几个特征[6]

1) 价值性:“工业4.0”时代,定制化成为主题,更强调用户价值,突出数据的可用性才能更好地实现用户价值.

2) 实时性:工业大数据主要面向过程工业,工业数据包括设备运行参数,生产数据、传感器采集的数据等,对数据分析并依赖分析结果给出辅助决策对实时性要求较高.

3) 闭环性:工业大数据完成从数据采集、数据分析、决策支持的工业生产全过程,并在此过程中实现动态调整和持续优化的闭环控制.

4) 复杂性:工业大数据间的隐性的、系统性干扰多,如在分析两个变量xy间的关系时,发现y还与其它众多变量有莫大的关系,以此类推,数据分析变得非常复杂.此外,工业大数据分析并不仅仅分析相关性就可以挖掘出价值的,在工业生产中,价值大小与可靠性成正比,只有稳定的、可靠性高的产品才具有巨大的价值.工业生产容错率低,这也是工业大数据分析极为复杂的原因之一.

相比于传统大数据,工业大数据需要解决以下3个问题:

1) 隐匿性,即需要洞悉特征背后的意义;

2) 碎片化,即需要避免断续、注重时效性;

3) 透明化,即透过数据窥探真实世界.

在“工业4.0”大时代背景下,产品制造技术已趋于完善,无论制造模式如何改进,隐形损耗和未知的变化始终存在,而工业大数据能够将传统工业体系中隐形因素透明化(如设备磨损程度等),将生产流程和操作经验充分阐释,并通过大数据分析技术,提高生产效率、降低决策成本;更为重要的是,通过对工业大数据的透彻分析,对设备与原材料等生产资源灵活复用,并构建面向未来大规模定制化的生产环境,实现产线的重组重构,为完成面向智能工厂的控制系统在线重构技术与服务平台打下良好的基础.工业大数据的价值还体现在可以为设备提供更完整的优化信息服务,使设备运行更安全,效率更高;工业大数据还有一个重要价值在于使信息世界逼近真实世界,传感器、二维码、射频技术等存在于各种工业产品和设备中,数据越来越多,类型也越来越多样,涵盖整个工业过程,通过对数据的透彻分析即可窥探真实工业生产过程,达成与真实世界全方位连接,在实现智能制造、流程再造等宏伟目标的道路上迈出坚实的一步.

2 工业大数据分析技术 2.1 数据准备

由于数据量小且数据复杂度低,传统数据分析过程是通过数据选取、剔除或减弱干扰,创造适合统计回归和数学建模的条件;随着信息技术、通信技术的发展,数据量呈指数增长,并且数据间关系越来越复杂,简单的剔除已经无法完成数据的准备工作,ETL(意为抽取、转换、加载)就孕育而生了.

全量ETL过程主要分为数据抽取、转换、清洗、装载.除了全量ETL过程,还有增量ETL过程,是依据抽取时间的不同来划分的.全量和增量ETL过程都包括数据抽取、转换、清洗、装载几个部分,增量数据抽取、转换、清洗、装载过程还包含其特有的步骤.无论是传统大数据还是工业大数据,都需要通过ETL对数据进行预处理,但二者的侧重点不同,在数据的预处理过程中,传统大数据在整个数据集中对数据进行预处理,而工业大数据需要尽可能全面地使用样本,使筛选后数据覆盖工业过程各类变化条件.

2.1.1 数据抽取

数据抽取是指将数据从不同数据源中抽取数据的过程.针对大数据的复杂性特征,提出一种SAT数据抽取模型,模型分为3层:数据分隔层对数据分隔,实现对数据的分布式处理;分析层实现对数据的并发处理;转换层完成数据的转换包装[8].抽取方法和模型设计合理,但没有考虑到数据的安全性问题.针对关系数据无法有效地转换到图数据中的问题,通过一种基于节点合并思想的数据迁移算法并按照原关系数据库中数据一对一、一对多、多对多关系,将外键相同的合并为一个节点,再将关系信息进行整合,最终利用图数据库的函数完成数据的转换[9].该方法合理有效,但效率不高,而且关系表中并不都存在外键,还需要对算法进行改进.除上述方法外,还可采用元数据知识模型对XML文件的数据进行抽取[10];构建L-C增量抽取模型[11],对异构环境下数据库事务文件进行全表比对,提高了数据抽取效率和性能.相比其它数据抽取方式,L-C增量抽取相对稳定,效率也更高,但是在数据抽取过程中,需要借助工具对事务日志文件进行解析,操作比较繁琐.

2.1.2 数据转换

数据转换意为对抽取出来的数据进行统一化管理,主要分为两种情况:第一是对数据格式的转换,包括单位、命名等;第二类是字段的增添与合并.

完成数据的转换有多种方式,例如通过“信息复写”的方式将数据写入目标格式[12],以此来完成数据的转换;通过数据逻辑分析,制订对应的ETL函数完成数据的转换[13-14].工业大数据环境下,数据多是多源异构,并且不同企业有不同的业务规则,对数据转换的效率提出了很大地挑战,在原有基础上研发统一的、高效的数据转换方法是亟待解决的难题.

2.1.3 数据清洗

数据清洗,顾名思义即为对数据质量的把关,将“脏”数据剔除.对数据清洗之前,应分析数据集的特点,根据特点制定相对应的清洗规则.

FBS[15]方法是常用的数据清洗方法,主要思路是通过测量各属性的相似度进行数据清洗.针对FBS方法在消除层面中置信度不高的问题,可采用专用索引提高效率[16].除了置信度的问题,准确度也是重要的指标,针对数据清洗精确度不高的问题,将主动学习运用到数据清洗中,并结合众包来保证清洗精度[17].目前主要通过改进算法来完成数据清洗的工作,如重复数据的检测与消除算法[18]、数据库管理的数据清理算法[19]、增量数据清洗算法[20]等.

2.1.4 数据装载

数据装载的目的是将抽取出的数据经过数据转换和清洗后按照一定的表结构放入数据表中.数据装载面临的主要问题是大数据量的装载和集成异构数据.

针对此问题,提出了一种用UB树[21]装载大数据集的算法,并综合考虑了硬件成本,很具有参考价值;除此之外,Oracle数据库提供的SQL*Loader装载工具[22]给出了一种针对大数据量的改进的装载方案,性能有所提高.但面对大规模数据时,效率还是不高.随着Spark的广泛使用,通过Spark完成数据的并行装载[23]也得以实现,并且具有很可观的装载效率.但是该文仅仅是对地理数据的并行装载,在处理多源异构类型的大规模数据时效果如何还无法确定.

2.2 数据存储

数据存储技术从最初的手工管理发展到文件管理阶段,而后随着数据库管理系统的出现,关系型数据库成为主要的数据存储技术.在关系型数据库中,首先被采用的是单表存储,即将所有数据存放在单表中,设计简单,但数据的增加使得访问效率越来越低;随后使用了多表存储,提高了单表的操作效率,但随之而来的问题是多表联合查询的效率不高.信息化技术的迅猛发展以及互联网络的兴起,使得数据量暴增,传统的单机存储的方式出现性能瓶颈,面对大数据量的访问时显得力不从心,并且扩展性和负载能力也捉襟见肘,性能和效率都无法满足用户的需求.为解决存储和访问的问题,分布式存储逐渐兴起,由于节点众多,能够满足大数据的存储量,另外在网络通信技术的支撑下,对数据的访问请求可实现多节点并发执行,访问速度快.

在数据类型方面,分布式数据存储可分为结构化数据和非结构化数据的存储.结构化数据存储主要采用分布式关系型数据库,GreenPlum[24]是常用的分布式关系型数据库,底层是基于PostgreSQL分库分表实现的,以堆表作为基本存储形式,采用MPP并行处理架构;Cloud Spanner[25]是Google发布的一种全球分布式存储服务,集成了关系型数据库与NoSQL数据库的最大优点;非结构化数据管理主要通过分布式文件系统和非关系型数据库进行管理.典型的分布式文件系统有HDFS[26]和CephFS[27]等,HDFS简化了存储系统的设计,将数据分块存储,每个数据块默认大小为64 MB,数据块可用于数据备份,可提高数据的容错能力和可用性;CephFS通过动态子树分区的方式管理元数据集群.在非关系型数据库的研究中,MangoDB[28]是一种基于文本的存储模型,一般存储格式为BSON或类BSON数据列表;Hbase[29]是Apache的一款开源非关系型数据库,基于列模式存储,具有高性能、高可靠、可伸缩的特性.

工业大数据利用传统大数据存储技术实现数据的实时采集以及数据存储,并且实现数据的快速检索,但由于工业大数据的多源异构,在存储设计时有些许不同,常用的数据存储设计如图 2所示.

图 2 工业大数据存储方案 Figure 2 Industrial big data storage scheme

以分布式文件系统HDFS作为底层存储,RDBMS作为实时数据库,NOSQL存储历史数据的多级数据管理方案,并且通过数据适配器实现对多源异构大数据的统一管理.但依然存在一些问题,HDFS是通过数据块来管理数据的,并且数据块大小固定,而工业大数据中含有大量地小文件数据,会造成空间的浪费;HDFS对数据的备份采用固定副本策略,所有数据副本数固定为3,但大数据的访问具有时效性,应根据数据块访问频率以及系统存储情况对数据块进行动态备份.

2.3 数据建模

数据建模在工业大数据中意为采用聚类、分类等数据挖掘方法对工业生产过程中的订单、设备、工艺等生产历史数据和实时数据及相关工序的优化仿真数据建立工业过程模型.在传统大数据中,数据建模方法与工业大数据中类似,不过无需区分工艺流程,建模更为粗粒度,而工业大数据的数据建模更为细致.在工业大数据中需要对设计生产的各项工艺流程建立模型库,用于生产过程的优化与控制、产品质量的诊断等.

2.3.1 数据挖掘

对数据进行分析之前首先需要对数据进行清洗,即数据的预处理过程.对工业数据的预处理主要包括降维、降噪等,降维分析通常分为非线性降维和线性降维[30],非线性降维主要有局部线性嵌入法(LLE)[31]、核主成分分析(KPCA)[32]、等距映射法(ISOMAP)[33]、多维尺度法(MDS)[34];线性降维方法有主成分分析(PCA)[35]、核特征映射[36]、线性判别分析(LDA)[37]等.降噪分析主要是通过主成分分析方法(PCA)对数据实现降噪.

1) 关联分析.数据关联是指数据集中变量间的取值存在函数关系、规律性或具有某种趋势.关联分析通俗来说就是将数据之间的联系转化为事物之间的联系.

Apriori[38]算法是一种应用广泛的关联规则挖掘算法,首先通过对数据库的遍历确定经常出现在一起的数据集称为频繁项集,然后根据支持度与最小支持度的关系对项集进行修剪,支持度小于最小支持度的数据集会被修剪,然后根据支持度计算可信度,确定数据之间的关联规则;除此之外,FP-树频集算法[39]也是常用的挖掘关联规则频繁项的算法.

关联规则挖掘在工业生产现场有众多的应用,通过对企业数据进行特征分析,对工业企业能源数据进行模糊关联规则挖掘,挖掘一些潜藏于变量中的关联关系,为企业节能降耗提供了一些可行性建议[40];以水泥煅烧过程为例,先对历史数据属性值进行属性约简,然后利用模糊关联规则挖掘出工艺过程中各控制参数间的联系,并提出针对水泥煅烧过程的优化建议[41].关联规则挖掘不仅用于生产过程方面,还在工业安全方面有广泛的应用.通过上文提到的Apriori算法加以改进处理工业过程报警问题,通过关联规则挖掘找到报警中的关联报警,从一组关联报警中选取一个报警发出警报,达到整体上提高报警质量的目的[42].

大数据最突出的特征就是数据量巨大,传统的关联规则挖掘算法应用于大数据中显得很吃力,文[43]介绍了一种基于划分的并行分层关联规则挖掘算法.其基本思想是将整个数据集随机分割为若干个非重叠子集,子集继续划分,进而并行分层地挖掘出局部频繁项集,最后确定出全局频繁项集.算法理论可行,但实际应用还比较缺乏,如果用于实际,算法运行时肯定会大量占据内存空间,运行效率不高.针对运行效率不高的问题,在关联规则挖掘之前对工业大数据进行清洗,筛除污染数据并经过降维降噪处理,再使用并行分层关联挖掘算法分析数据.关联规则的挖掘在工业中有着重要的作用,对寻找到生产参数间的联系,数学模型的建立及优化工业生产过程都能起到事半功倍的效果.

2) 分类.机器学习一般分为监督学习、半监督学习、无监督学习三类,分类和聚类分别属于监督学习与无监督学习.分类是指将数据信息划分到已定义好的类别中.

现在的分类算法有很多,目前用的较多的是基于核函数的数据分析方法,支持向量机(SVM)[44]是典型代表,通过核函数免去高维变换,通过直接将低维参数代入核函数得出高维向量的内积,是常用的分类器和模式识别工具.除此之外,常用的有KNN算法[45]、决策树分类法等.决策树分类法中比较典型的是C4.5算法[46],随着数据量慢慢增长,在C4.5算法的基础上开发了SLIQ(supervised learning in quest)算法[47]、SPRINT(scalable parallelizable induction of decision trees)算法[48];NB(naive Bayes)算法还有TAN(tree augmented Bayes network)算法[49]是Bayes分类法中常用的算法;数据库分类法中用的较多的是GAC-RDB(grouping and counting relational database)算法[50];CBA(classification based on association)算法[51]是规则归纳分类法中的常用算法;神经网络[52]通常用于解决分类和回归两类问题.

从大数据的分布式和流动性特性出发[53],分析大数据的分类挖掘算法及其架构,并针对大数据分布式数据流,设计出一个大数据的分类模型,对于不同步骤采用行之有效的分类方法,在局部节点采用微簇算法、全局节点利用集成学习方法.但是该文提出的分类模型和算法的分析精度在数据分布极其不规范的情况下,会有所下降. KNN算法是经典的分类算法,准确率高、稳定性好,主要思想是将数据转化为特征向量,根据新数据与训练样本数据之间的距离对数据进行分类.但当新数据比较复杂的时候,要计算全体到样本的距离,计算开销较高,实时性较差.针对KNN算法存在的问题,提出一种改进的KNN算法[54],主要通过对大数据样本进行分层,并且决策时并非采用原始的最邻近方法,而是在最后一层用差分的策略进行分类,在降低计算开销的同时保证了分类的准确性.

3) 聚类.分类和回归分析都有处理训练数据的过程,训练数据的类别标号已知.而聚类分析则是对未知类别标号的数据进行直接处理.在很多情况下,类别标号已知的训练数据可能在最开始是无法获得的.在聚类过程中,聚类的原则是使类内数据的相似性最大,而使类间数据的相似性最小.每一个聚类可以看成是一个类别,从中可以导出分类的规则.聚类技术主要包括传统的模式识别方法和数学分类法,根据对象间的距离进行划分,并对划分出的类的具体意义做出描述.

常用的聚类算法可分为层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法以及基于模型的聚类算法四大类.划分式聚类算法比较典型的主要是k-means[55]算法以及AP[56]聚类算法. k-means算法是一种常用的基于划分的聚类算法,把n个对象分为k个簇,以使簇内具有较高的相似度;与k-means算法不同,AP聚类算法不需要指定描述聚类个数的参数,反而将所有节点都看作是潜在的聚类中心,通过计算吸引度r(ik)的大小判断k点是否适合作为i点的聚类中心,计算归属度a(ik)的大小判断i点是否适合选取k点作为自身的聚类中心,ra的值越大,k作为聚类中心的可能性就越大,i隶属于k聚类的可能性也越大.由于AP聚类算法无需指定初始聚类中心,稳定性较高,不受初始聚类中心选择的影响,稳定性和聚类效果都要优于k-means算法;除此之外,Rodriguze[57]在2014年提出的一种基于密度的快速聚类算法,可以对非球形数据集聚类,实现速度快,简单有效,但聚类时需要确定密度阈值,并且无法对一个类中存在多个密度峰值的数据聚类.典型的基于密度的算法还有OPTICS算法[58]等;属于层次法的BIRCH算法[59];基于模型的高斯混合模型GMM[60]以及神经网络模型SOM[61]等也经常用到.大数据环境下,k-means算法容易出现聚类精度不足和收敛速度慢等问题,各类改进的算法对数据集限制比较多,但是稳定性和聚类效果较为可观.

2.3.2 深度学习

机器学习旨在通过计算的手段来改善系统自身的性能.数据挖掘是一个过程,而数据挖掘中采用的众多方法,是属于机器学习领域.深度学习本质是神经网络,也是属于机器学习的范畴,由于深度学习在图像、语音等数据的分类和识别具有非常好的效果,对工业大数据分析也能起到很大地帮助,故单独进行介绍.

深度学习的概念是由多伦多大学的Hinton等[62]于2006年提出的,认为深度学习是更为复杂的多层次的机器学习过程[63].除此之外,Hinton还提出使用无监督预训练方法优化传统神经网络权值的初值,再进行权值的微调[64],这是深度学习首次与传统神经网络的对比.深度学习有多层的隐藏节点,是多层的神经网络,是单层或多层的受限玻尔兹曼机、卷积神经网络的综合,是一个复杂的机器学习算法.人类对事物的认识都是分层次逐步深入的,人工智能也是一样,深度学习网络层数较多,层次越深入,越能发现其中的内在规律,蕴含的价值也越大,使机器具有认知能力,对外界信息如文字、声音、图像甚至视频等进行识别.

深度神经网络的特征提取方法可引入工业过程软测量建模当中.例如将深度置信网络引入球磨机料位的软测量建模当中[65],采用DBN进行球磨机轴承振动信号的特征提取,然后将获取的特征输入SVM进行模型训练,经过与其它已存在的方法建立的模型的对比分析,表明基于DBN的球磨机料位软测量模型测量精度高、稳定性好.

除了简单的特征提取外,深度神经网络还广泛应用于图像、声音等的特征提取. Krizhevsky等[66]在2012年大规模视觉挑战赛(ImageNet large scale visual recognition challenge,ILSVRC)[67]中,所训练的深度卷积神经网络取得了图像分类和目标定位的第一.在2014年,大多该项赛事的参赛团队采用卷积神经网络(CNN)的变形方法[68]进行图像分类与目标识别,包括分类错误率在内的几项评测指标都比手工提取特征的方法要好.由此可知,在图像识别领域,深度卷积神经网络的特征学习方法更为有效.但深度学习模型在对大数据进行特征学习时,由于深度学习模型有很多种,如栈式自动编码机[69-70]、深度信念网络[71]等,并且针对不同数据类型,各模型特征学习的效果也参差不齐,值得进一步深入研究;另外,在对深度计算模型参数训练过程中,容易陷入局部最优解,如何设计有效的优化算法来提高模型的计算性能,是未来的研究重点之一.

2.4 数据处理

最初的数据处理是由单个大型任务处理机执行计算任务,这种方式受限于单机的处理能力,效率低下;而后随着数据量的指数级增长,传统的单机串行处理数据的方式无法满足人们对于效率的要求,为分布式并行计算提供了发展契机.在20世纪60年代和70年代,很多并行计算框架被提出,其中比较具有代表性的是布尔网络[72-73]和PRAM[74],除此之外,之后在这两个框架的基础上陆续提出了APRAM、BSP等并行计算框架[75].这些计算模型都是假定计算资源无限,所以这些计算框架都无法刻画在实际计算任务中计算资源受限的特点.目前,对大数据的数据处理形式分为批量数据处理、流数据处理、图数据的处理[76]的并行计算框架.在数据处理技术方面,传统大数据与工业大数据的区别在于,工业大数据更注重数据处理的实时性,通过实时的数据处理结果,指导后序工业生产流程.

1) 批量数据处理:大数据的批量处理模型适用于实时性要求不高,更注重准确性与全面性的离线数据.目前,具有代表性的批处理计算模型是Google公司提出的MapReduce[77]编程模型和微软公司的Dryad[78]. MapReduce已经成为学术界和工业界事实上大数据并行批量处理的标准. MapReduce先对数据文件分块,然后根据不同的任务目标编写map和reduce函数,一个文件块对应一个mapper,map处理结果作为reduce的输入,最后得出处理结果并提交由任务处理框架处理. MapReduce将自动并行化、负载均衡等繁琐的细节隐藏起来,极大地降低了编程难度.而且众多机器学习和数据挖掘算法都可用MapReduce实现.随后Spark[79]兴起,继承了MapReduce优点的同时,能更高效率地处理数据.以Spark为核心的离线批数据处理,可以直接读取分布式文件系统和数据库中的数据.数据处理方面与MapReduce最主要的区别在于,Spark将数据全部读入到内存,数据处理的中间结果也直接保存在内存中,而MapReduce需要多次读写数据,效率不高.对于复杂数据的挖掘,Spark通过丰富的机器学习算法库MLlib提供分类、聚类、协同过滤等工具完成数据挖掘.

2) 流式数据处理:针对批量数据处理模型对实时数据处理能力不足的问题,Google与2010年提出Dremel[80],重点对实时数据处理.流式数据处理源于对服务器日志的实时采集,简而言之,流式数据是无穷的数据序列,通常带有时间标签等具有序列属性的数据.流式计算模型按序处理数据,由于数据并非按序到达,故在大数据情况下,流式计算模型需要有很强的伸缩性,动态适应流入的数据流,并且要有很强的计算能力与流量匹配能力.流式数据处理在工业中主要用于数据采集应用,通过传感器采集、服务器日志等方式采集实时数据,并利用数据清洗、归类、分析等方法挖掘数据价值.流式数据处理系统的典型代表为Storm[81]系统,主要功能是用来实时处理新数据并更新存储,也可进行连续计算、连续查询等复杂运算.在Spark中,每个应用程序都由一个任务控制节点和多个作业组成,同时,一个作业又可分为多个阶段,一个阶段由多个任务组成.当应用执行时,任务控制节点向集群管理器申请执行程序所需要的资源,从而启动Executor,并且将应用程序代码和文件发送至Exector,最终在Exector上执行任务.在Spark Streaming中,组件Receiver作为长期任务停留在Exector中,每一个Receiver负责一个input DStream,input DStream作为外部数据源的接入接口,读取外部数据. Storm与Spark Streaming都可用于实时大数据的分析处理,但Storm更适用于“小数据块”的动态处理,Spark更适用于导入Spark集群的数据全集.

3) 图数据计算模型:图通过自身结构特性,可以很好地表示出事物之间的联系.图数据主要包括节点和连接节点的边.边的数量是节点数量的若干倍,节点之间的关系性与边的定义同等重要,根据顶点和边实例化的区别,又可定义出不同类型的特征图.在图中,各节点数据之间相互关联,计算时必定具有很强的耦合性,因此,对图数据进行单机处理或者简单的并行处理都是不可行的,需要通过图数据处理模型确定合适的图分割点以及并行计算模型.图数据处理在可视化技术中应用较多,在后文中会有提及.图数据处理的典型系统有Google提出的Pregel[82]分布式图计算框架,该计算框架主要是基于BSP(Bulk synchronous parallel)[83]模型,采用“计算—通信—同步”的模式将计算分为一系列的迭代过程.计算框架将图数据分为主从节点,主节点负责对图结构进行划分,从节点按计算任务进行计算,计算结果返回给主节点.并通过checkpoint[84]机制进行容错,使框架有良好的容错性;Neo4j[85]系统支持数据库的所有特性,并且提供了大规模可扩展性,可在单机上处理数十亿个节点属性的图,也可以扩展到多机并行执行;微软推出的Trinity[86-87]是一款分布式计算平台,主要使用内存存储,磁盘作为备份存储. Trinity支持并行查询、ACI交易等数据库特点,并且支持在线查询和离线批处理.相比之下,Pregel只支持在线查询.并且Trinity是基于内存的,具有更快的读写效率.各类数据处理系统各有特点,Neo4j支持数据库所有特性,不支持离线批处理,而Trinity是基于内存的,读写效率更高.

2.5 可视化分析 2.5.1 可视化分析的概念及特点

可视化是对数据、信息、知识的内在抽象性利用计算机图形学、计算机图像处理、计算机信号处理等技术通过计算机进行显示.通过呈现数据、知识等隐含的规律性信息,帮助用户对潜藏在数据中的信息有一个显性化的理解,有助于用户对数据更好地进行后续分析处理[88].目前普遍认为可视化只是将大数据分析的过程在人机交互界面进行友好显示,对于大数据的可视化研究也尚处于初步,技术体系未完全形成. “工业4.0”时代,可视化将渗透到工业企业的各个环节,多角度、全方位地指导生产.如前文提到的工业大数据在未来使信息世界逼近真实世界,可视化向透明化转变则是信息世界逼近真实世界的开端.

2.5.2 面向大数据的可视化技术

大数据时代,数据量大而且复杂多样,可视化是发现数据中蕴含信息的有效途径.目前面向大数据主流应用的可视化对象主要是文本可视化、网络可视化、时空数据可视化以及多维数据可视化.

1) 文本可视化[89-90]是对大数据挖掘出的有用信息进行合理的分析、应用.通过对词汇、语法、语义三个层次的文本信息进行提取.

标签云技术是典型的文本可视化技术,标签云技术通过对关键词按照一定规律的排序,利用可定制的可视化呈现形式展现出来;文档散技术在标签云技术的基础上,结合关键词与现实生活中常用词汇的关系对关键词进行排布.

2) 网络可视化技术[91-92]利用人类先天的视觉感知能力,将网络数据以图、树等可视形式呈现出来.通过网络可视化,可对数据进行检索、查找、排序、筛选、关联关系确定等操作,挖掘网络数据信息.

网络可视化有多种可视呈现形式,不同的呈现形式相应的处理技术以及使用的数据规模也不一样.对于相邻矩阵布局的网络图,在数据规模较小的情况下,对中心与关系的表达不太直观,并且常用排序和路径搜索两种交互方式来挖掘相邻矩阵的隐藏信息;节点链接法布局能够直观地展示节点间的关系,但处理大规模数据时,图节点和连接节点的边大量重叠,此时常用图简化方法处理大规模图,将图转化为层次化树的结构,并分层对图进行可视化.

3) 时空数据可视化[93-94]将位置信息、时间信息及状态数据进行描述和表达.通过时空数据可视化,展现出事物的属性状态及随时间空间变化的特征信息.

目前主要通过数据模型这一表现形式来描述时空数据,常用的时空数据模型有序列快照模型、时空立方体模型、时空复合模型、面向对象的时空模型等.

4) 多维数据可视化[95]通过图形、图像等形式,辅助用户发掘高维数据中的隐藏信息.

目前已有多种多维数据可视化技术,平行坐标系和散点图矩阵是典型代表.平行坐标系用竖线代表维度,不同竖线上的点相连接代表坐标点,以此展示多维数据,但数据规模大时,会出现点与线的重叠造成的视觉混淆的问题,因此基于大数据的平行坐标系法通常需要交互、聚类、过滤等视觉混淆的处理方法;散点图[96]通过一组点来标识变量间的关系,点的属性不同代表不同的数据特征.

大数据的可视化是复杂多样的,多类型的数据信息有多样的呈现方式,例如基于Hadoop的可视化技术[97],首先利用Hadoop的Sqoop工具与Hive工具将处于不同数据服务器的数据传输到一起,并进行多维数据分析,为可视化操作做好准备.然后介绍了客户端绘图技术SVG与Canvas,还对当前流行的Echarts、D3、Anychart几款可视化工具做了比较介绍,接着将数据按照数据特征、行业等不同形式进行划分,并选择合适的可视化技术对其可视化.如利用SVG技术实现Map地图可视化,用于电商货物配送的可视化环节中,利用D3、Anychart工具对数据模型可视化.最后将这些可视化技术集成到数据分析平台中,实现数据的可视化分析,以及分析结果的可视化呈现.上述文献针对数据特征,行业需求做了不同的可视化,并将可视化技术集成到数据分析平台中,这些对于未来实现工业全过程的可视化是一个很好的借鉴,但文章对可视化交互方面展现的不充分,而数据间的联系是不可忽视的,自然可视化交互的体现也十分重要.可视化技术在工业生产现场也应用广泛,如通过实现工业炉内的三维温度场可视化[98],同时反演出燃烧介质以及高温壁面的辐射特性参数.通过对该技术的深入研究,可提高工业炉加热质量,节省燃料,对提高工业炉安全和经济运行水平有着重要作用.

工业大数据时代的数据可视化不局限于数据分析过程,更为重要的是渗透到工业生产流程的各个部分.这是与传统大数据的重要区别.实时可视化是数据可视化的一个重要运用.德国KISTERS公司研发了一个3D View Station系统,可支持多种复杂模型的可视化,更重要的是可广泛应用于工业企业的各个环节,如需求定制、工艺设计、产品销售、过程生产等众多环节,且兼容性强,可集成到各大数据分析平台中,实现各个环节的实时可视化.定制化是第四次工业革命主题之一,例如在奔驰汽车的官方网站上,就给出了产品的三维图样,用户可以根据自己的喜好和需求更改颜色、材料、配件等,数据可视化渗透到了用户需求层面.在未来,可视化结合大量人机交互和用户体验的研究成果,从用户需求、工业生产到产品配送、完成订单,将整个系统的架构进行整合.可视化逐渐向透明化转变.

3 应用前景与挑战

工业生产中存在很多可见和不可见的问题,并且可见的问题是由众多不可见问题堆砌而来的.传统的解决办法都是在问题发生之后去解决,但对于不可见问题,需要提前洞悉并避免;除此之外,还涉及到解决问题,传统的方法是发现问题后由操作人员予以处理,而智能制造时代则是利用工业大数据发现工业过程中的隐形损耗和未知的变化,并利用机器设备通过分析技术予以避免,实现无忧虑制造环境,也就是人工智能.

智能化是智能制造最重要的特征,而人工智能则是智能化的最直接体现.同时,智能制造的升级和产业优化离不开人工智能技术的支撑.人工智能致力于让机器像人类一样对分析得出的结果做出反应,实现“smart”到“intelligent”的转变.而深度学习技术的出现,使得机器学习有了突破性进展,从而带来了人工智能领域的长足进步.例如最近非常火热的人工智能AlphaGo,通过与人类的博弈完成自身的升级,是人工智能的完美体现.工业大数据的分析技术在智能制造中的人工智能主要体现在5个方面:

1) 智能化设计:传统的产品研发设计需要经过多次产品生产的试验之后才能得到比较满足要求的成熟的产品.工业大数据技术环境下的产品设计,首先在设计初期,对设计部门、生产部门以及销售部门的历史数据建立全方位的数字化模型,而后,根据应用的具体情况,并考虑到具体环境因素对产品模型进行修改和完善.并且,设计师将产品设计发布到网上,用户可根据自身需求和喜好,形成个性化定制产品.最后,由于设计数据间的强耦合性,利用虚拟仿真技术,根据设计模型对产品进行综合验证,逐步解决设计中的不合理性并优化.

兰石集团通过建立统一的大数据管理平台,形成了从生产一线的DCS、DNC设备到MES再到ERP的闭环优化体系,实现产品设计、生产流程管理、物料与供应链的一体化集成.使得工艺设计工作从原来的图纸化传递转化为模块化,参数化的过程,有效地提高了生产效率.目前,兰石集团下属众多单位通过建立系统大数据集成平台,实现了结构化、数字化、标准化的连接工艺设计到生产、销售的信息通道.从根源上提高了效率,给企业带来巨大的收益.

2) 智能化生产:复杂生产过程由于数据的高维度、非线性,生产过程模型的不确定性以及各个子过程之间相互干扰呈现出的强耦合性使得难以实现过程参数的状态描述以及对生产过程的模拟.并且现如今企业以效率为主,着重提高产品质量,过程优化就显得十分重要.利用布置在制造产品线以及工业设备上的传感器采集到的实时数据进行分析,对工业生产过程建立虚拟模型,模拟生产流程,发现生产过程中的缺陷与不足.并通过对工业大数据建立优化模型与预测模型,并且预测模型输出的预测的数据也进入到优化模型中,得到比较完整的优化方案,利用优化方案对机器实行最优化的控制,形成完整的闭环系统,完成生产模式的升级,实现由批量化生产模式向客制化生产模式的转变.

中国台湾的高圣机电公司,生产的机床的核心部件是用于对金属物料进行切削的带锯,随着切削体积和时长的增加,带锯会有不同程度的磨损,而更换带锯主要以工人的经验为依据,上文也提到,复杂工业生产过程具有很大的不确定性,通过经验判断是不准确,不严谨的.随着大数据的兴起,高圣公司增加了对数据的获取和存储力度,并结合设备参数、工件数据、工况信息等相关参数,对机床实时生产数据进行分析,依据工况状态对健康特征进行归一化处理后,将带锯的磨损现状映射到代表当前磨损程度的特征地图上,以此将带锯的磨损状态进行量化和透明化.并将数据存储,形成庞大的历史数据库,之后通过数据挖掘找到健康特征、工艺参数和加工质量之间的关系,建立不同健康状态下的动态最佳工艺参数模型,在保障加工质量的前提下延长带锯使用的寿命.

3) 网络化协同制造:通过互联网络,将客户、研发、生产等数据信息在企业内部、企业之间乃至整个供应链上共享数据资源.变流程化生产为扁平化生产,缩短产品周期,优化库存.这是工业大数据价值的一个重要体现,通过大数据分析平台根据历史数据和用户需求对企业产品的设计及产量做出预测,并利用互联网络进行共享,按需生产,优化库存,大大缩短产品生产周期,形成一个集产品研发与设计、生产制造、供应链和企业管理于一体的网络协同制造系统.

海尔公司打造互联工厂,改变传统制造模式,从整个供应链出发,包括原材料采购、生产流程管理,将用户需求、模块设计、物流资源等流程全链共享,大大缩短产品周期,实现各方利益最大化.

海尔将工厂内系统互联,实现人人、人机、机机互联,并将产生的数据预处理,结合历史数据对当前数据进行数据挖掘处理,实现生产方式的优化调整以及用户需求的个性化定制,满足用户的个性化体验.另一方面,海尔还实现了全集团的可视化平台,实现全流程的可视化以及数据的实时收集和分析.并结合可视化技术,将分析结果实时展示.企业决策者可通过展示出的数据实时分析结果提高决策的准确性与时效性,并进一步分析企业发展方向,挖掘商业机会.

4) 个性化定制:随着信息化与工业化的深度融合,工业生产模式由量化型生产向以用户为中心的客制化生产转变.只有利用工业大数据才能实现工业生产的批量定制.通过对大数据的挖掘,实现市场预测,用户需求匹配等应用,帮助企业提升产品的针对性,减少库存堆积.

5) 智能化服务:智能化服务主要体现在供应链优化与产品诊断与预测中.工业供应链的优化主要体现在将全产业的供应信息整合,使整个系统达到协同优化.通过互联网络,将客户、研发、生产等数据信息在企业内部、企业之间乃至整个供应链上共享数据资源.变流程化生产为扁平化生产,缩短产品周期,优化库存.这是工业大数据价值的一个重要体现,通过大数据分析平台根据历史数据和用户需求对企业产品的设计及产量做出预测,并利用互联网络进行共享,按需生产,优化库存,大大缩短产品生产周期,形成一个集产品研发与设计、生产制造、供应链和企业管理于一体的网络协同制造系统;工业过程生产中对产品的质量测量与产率计算都具有很大的滞后性,无法及时地根据结果指导生产过程,因此能够及时地预测出产品的质量以及产率对提高生产的效率具有重要的意义.在产品开发方面,通过对企业产品数据、爬取的web网络数据以及用户历史数据的综合分析,利用前文提及的大数据分析技术,针对用户需要以及喜好,对产品设计进行改良,不同的用户组,定制出不同的符合需要的产品,为企业营造出更广阔的销售空间.

现在对工业大数据的研究属于起步阶段,还存在很多问题和挑战:

1) 信息集成贯通困难:前文提到工业大数据来源多样,数据结构不一,具有不同的格式和标准,有生产流程数据,也有来自企业关系型数据库的关系型数据,还有视频监控数据等非结构化或者半结构化的数据.各企业之间信息系统相互独立,同时,由于信息源、设备生产商不同、软件提供商多样等众多因素导致数据格式千差万别,致使信息集成贯通难以实现.基于以上挑战,需要对数据格式有一个统一的规范,搭建国家、行业与企业不同等级的工业大数据分析平台,最大化地规范数据格式,打通各企业间的信息孤岛.

2) 系统复杂性带来的挑战:面对规模巨大,结构复杂多样,数据类型多源异构,价值稀疏的工业大数据,对其的处理面临包括计算复杂、实时性要求高、持续性强等的挑战,对大数据处理系统的运行效率以及系统性能提出了严苛的要求.这就要求大数据分析处理方法需要更为高效智能,在数据采集这一环节,人工智能助力的智能感知将更为高效,在采集到数据的第一时刻,就进行数据的过滤筛选,将价值低、重复冗余的数据清除,只上传价值储备高的数据,有效节省带宽,并更为有效;在数据分析这一环节,进一步加强人工智能技术在这一环节的作用,通过对历史数据的深度学习,获取经验数据的具象化实现,将知识转化为生产力,并实现知识的自动化;在可视化环节,全方位立体地展现产品生产的全过程是未来的发展方向,是实现信息世界逼近真实世界的重要砝码.工业大数据分析处理架构及未来发展如图 3所示.

图 3 工业大数据分析处理架构及未来发展 Figure 3 Industrial data analysis and processing architecture and future development

3) 物联接入设备困难:工业大数据注重数据的连续性,物联设备数据在众多工业流程中都是必不可少的,是工业大数据畅通流动的必要手段.但是在实际工业应用中,众多工业软件和先进物联设备不具备自主控制能力,只提供使用说明,不开放先进设备的读写,致使设备信息不流动,数据流通不畅.为了充分挖掘工业大数据的价值,突破这层束缚是重中之重.

工业大数据蕴含着巨大的价值,前景广阔,要充分挖掘大数据的价值,才能完成工业企业的量化生产模式向客制化生产模式的变革.

参考文献
[1] Kagermann H, Wahlster W, Helbig J. Securing the future of German manufacturing industry-Recommendations for implementing the strategic initiative INDUSTRIE 4. 0[R]. Final report of the Industrie 4. 0 Working Group, 2013.
[2] Evans P C, Annunziata M. Industrial internet pushing the boundaries of minds and machines[EB/OL]. [2012-11-26]. http://www.ge.com/sites/default/files/Industrial_Internet.pdf.
[3] 中国电子技术标准化研究院, 全国信息技术标准化技术委员会大数据标准工作组. 工业大数据白皮书[R]. 2017.
China Electronics Standardization Institute, China National Information Technology Standardization Network. Industrial data white paper[R]. 2017.
[4] Li G J, Cheng X Q. Research status and scientific thinking of big data[J]. Bulletin of the Chinese Academy of Sciences, 2012, 27(6): 647–657.
[5] Wang Y Z, Jin X L, Cheng X Q. Network big data:Present and future[J]. Chinese Journal of Computers, 2013, 36(6): 1125–1138.
[6] 刘强, 秦泗钊. 过程工业大数据建模研究展望[J]. 自动化学报, 2016, 42(2): 161–171.
Liu Q, Qin S L. Research prospect of large data modeling in process industry[J]. Acta Automatica Sinica, 2016, 42(2): 161–171.
[7] 周佳军, 姚锡凡, 刘敏, 等. 几种新兴智能制造模式研究评述[J]. 计算机集成制造系统, 2017, 23(3): 624–639.
Zhou J J, Yao X F, Liu M, et al. A review of several emerging intelligent manufacturing models[J]. Computer Integrated Manufacturing System, 2017, 23(3): 624–639.
[8] 罗恩韬, 胡志刚, 林华. 一种大数据时代海量数据抽取的开发模型研究[J]. 计算机应用研究, 2013, 30(11): 3269–3271.
Luo E T, Hu Z G, Lin H. Study on the development model of a big data era of massive data extraction[J]. Application Research of Computers, 2013, 30(11): 3269–3271.
[9] 韩强. 一种高效的图数据抽取技术的研究[D]. 昆明: 云南大学, 2015.
Han Q. Research on an efficient data extraction technique[D]. Kunming: Yunnan University, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10673-1015610844.htm
[10] Liu L, Calton P, Han W. An XML-enabled data extraction toolkit for web sources[J]. Information System, 2001, 26(9): 563–583.
[11] 贾艳凯. 多源异构增量数据抽取方法研究与设计[D]. 哈尔滨: 哈尔滨工程大学, 2013.
Jia Y K. Research and design of multi-source heterogeneous incremental data extraction method[D]. Harbin: Harbin Engineering University, 2013. http://cdmd.cnki.com.cn/article/cdmd-10217-1014133645.htm
[12] Halevy A, Rajaraman A, Ordille J. Data Integration: The teenage years[C]//Proceedings of the 32nd International Conference on Very Large Data Bases. New York, USA: ACM, 2006: 9-16.
[13] Vassiliadisl P, Simitsis A, Georgantas P, et al. A framework for the design of ETL scenarios[C]//Proceedings of Conference on Advanced Information Systems Engineering(CAISE). Klagenfurt: CAISE, 2003: 520-535.
[14] Tziovara V, Vassiliadisl P, Simitsis A. Deciding the physical implementation of ETL Workflows[C]//Proceedings of the ACM 10th International Workshop on Data Warehousing and OLAP. New York, USA: ACM, 2007: 49-56.
[15] Ananthakrishna R. Chaudhuri S, Ganti V. Eliminating fuzzy duplicates in data warehouses[C]//Proceedings of the VLDB Conference. Berlin, Germany: Springer, 2002. https://www.researchgate.net/publication/2538935_Eliminating_Fuzzy_Duplicates_in_Data_Warehouses
[16] Chaudhuri S, Ganjam K, Ganti V, et al. Robust and efficient fuzzy match for online data-cleaning[C]//Proceedings of the ACM SIGMOD Conference. New York, USA: ACM, 2003. https://www.researchgate.net/publication/221213232_Robust_and_Efficient_Fuzzy_Match_for_Online_Data_Cleaning
[17] 叶晨. 基于众包的数据清洗关键技术的研究[D]. 哈尔滨: 哈尔滨工业大学, 2015.
Ye C. Research on key technology of data cleaning based on crowdsourcing[D]. Harbin: Harbin Institute of Technology, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10213-1015980060.htm
[18] Marcus A E. Matching algorithm within a duplicate detection system[J]. IEEE Data Engineering Bulletin, 2000, 23(4): 14–20.
[19] Hernandez M A, Stolfo S J. The merge/purge problem for large databases[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data. New York, USA: ACM, 1995: 127-138. https://www.researchgate.net/publication/221214854_The_MergePurge_Problem_for_Large_Databases
[20] Zhang X F, Sun W W, Wang W, et al. Generating incremental ETL processes automatically[C]//Proceedings of the First International Mult-symposiums on Computer and Computational Sciences. Piscataway, NJ, USA: IEEE, 2006: 516-521. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4673758
[21] Fenk R, Kawakami A, Markl V, et al. Bulk loading a data warehouse built upon a UB-Tree[C]//Proceedings of the 2000 International Symposium on Database Engineering & Applications. Piscataway, NJ, USA: IEEE, 2000: 179-187. http://dl.acm.org/citation.cfm?id=686907
[22] 秦峰巍, 胡家宝, 崔龙卫. 基于SQL*Loader的海量数据装载方案优化[J]. 武汉理工大学学报, 2010, 32(5): 707–709.
Qin F W, Hu J B, Cui L W. Optimization of massive data loading scheme based on SQL*Loader[J]. Journal of Wuhan University of Technology, 2010, 32(5): 707–709.
[23] 贺梦洁, 朱美正, 初宁, 等. 基于Spark平台的地理数据并行装载技术[J]. 地球信息科学学报, 2016, 37(12): 63–68.
He M J, Zhu M Z, Chu N, et al. Geographic data parallel loading technology based on spark[J]. Journal of Geo Information Science, 2016, 37(12): 63–68.
[24] 何勇, 陈晓峰. Greenplum企业应用实战[M]. 北京: 机械工业出版社, 2014.
He Y, Chen X F. Enterprise application with Greenplum[M]. Beijing: China Machine Press, 2014.
[25] Corbett J C, Dean J, Epstein M, et al. Spanner: Google's globally-distributed database[C]//Usenix Conference on Operating Systems Design and Implementation. Piscataway, NJ, USA: IEEE, 2012: 251-264.
[26] Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system[C]//IEEE Symposium on Mass Storage Systems & Technologies. Piscataway, NJ, USA: IEEE, 2010: 1-10. https://www.researchgate.net/publication/228346723_The_Hadoop_Distributed_File_System?ev=auth_pub
[27] Weil S A, Brandt S A, Miller E L, et al. Ceph:A scalable, high-performance distributed file system[J]. USENIX Association, 2010: 307–320.
[28] MongoDB[EB/OL]. (2017-12-21)[2018-01-27]. http://www.mongodb.org.
[29] Hbase Development Team. Hbase: Bigtable like structured storage for Hadoop HDFS[EB/OL]. (2017-10-14)[2018-01-16]. http://wiki.apache.org/hadoop/Hbase.
[30] 谭璐. 高维数据的降维理论及应用[D]. 长沙: 国防科学技术大学, 2005.
Tan L. Dimension reduction theory and application of high dimensional data[D]. Changsha: National University of Defense Technology, 2005. http://cdmd.cnki.com.cn/Article/CDMD-90002-2005144330.htm
[31] Saul L K, Roweis S T. Think globally fit locally:Unsupervised learning of nonlinear manifolds[J]. Machine Learning Research, 2003, 4(2): 119–155.
[32] Mika S, Scholkopf B, Smola A, et al. Kernel PCA and denoising in feature spaces[C]//the Conference on Advances in Neural Information Processing Systems. Denver, CO, USA: MIT Press, 1999: 536-542. https://www.researchgate.net/publication/2950606_Kernel_PCA_and_De-Noising_in_Feature_Spaces
[33] Morishima A, Kitagawa H, Matsumoto A. A machine learning approach to rapid development of XML mapping queries[C]//20th International Conference on Data Engineering. Piscataway, NJ, USA: IEEE, 2004: 276-287. https://www.computer.org/csdl/proceedings/icde/2004/2065/00/20650276-abs.html
[34] Griffithstl T L, Kalish M L. A multidimensional scaling approach to mental multiplication[J]. Memory & Cognition, 2002, 30(1): 97–106.
[35] 李荣雨. 基于PCA的统计过程监控研究[D]. 杭州: 浙江大学, 2007.
Li R Y. Research on statistical process monitoring based onPCA[D]. Hangzhou: Zhejiang University, 2007. http://cdmd.cnki.com.cn/article/cdmd-10335-2007079103.htm
[36] Brand M. Artificial intelligence[C]//18th International Joint Conference. San Francisco, USA: Morgan Kaufmann Publishers, 2003: 547-552.
[37] 李弼程, 邵美珍, 黄洁. 模式识别原理与应用[M]. 西安: 西安电子科技大学出版社, 2008: 45-52.
Li B C, Shao M Z, Huang J. Pattern recognition theory and application[M]. Xi'an: Xidian University Press, 2008: 45-52.
[38] Agrwal R, Srikan R. Fast algorithms for mining association rules in large databases[C]//20th International Conference on Very Large Databases. Berlin, Germany: Springer, 1994: 487-499. https://www.researchgate.net/publication/221900765_Fast_Algorithms_for_Mining_Association_Rules_in_Large_Databases?ev=auth_pub
[39] 赵伯昕, 卓秀然, 郑潮宇. 局域网安全指标间关联规则挖掘系统的研究[J]. 计算机工程, 2011, 38(3): 150–152.
Zhao B X, Zhuo X R, Zhen C Y. Research on association rules mining system for local area network security index[J]. Computer Engineering, 2011, 38(3): 150–152.
[40] 郭嘉美. 模糊关联规则挖掘及在工业数据中的应用[D]. 郑州: 郑州大学, 2014.
Guo J M. Fuzzy association rules mining and its application in industrial data[D]. Zhengzhou: Zhengzhou University, 2014. http://cdmd.cnki.com.cn/Article/CDMD-10459-1014391069.htm
[41] 刘静. 粗糙集和模糊关联规则在流程工业企业中的应用和研究[D]. 济南: 济南大学, 2010.
Liu J. Application and research of rough set and fuzzy association rules in process industry[D]. Jinan: University of Jinan, 2010. http://cdmd.cnki.com.cn/Article/CDMD-10427-2010214667.htm
[42] 樊虹. 工业过程报警的关联规则挖掘方法及应用[D]. 北京: 北京化工大学, 2016.
Fan H. Association rules mining and its application in industrial process alarm[D]. Beijing: Beijing University of Chemical Technology, 2016. http://cdmd.cnki.com.cn/Article/CDMD-10010-1016322273.htm
[43] 田苗凤. 大数据背景下并行动态关联规则挖掘研究[D]. 兰州: 兰州交通大学, 2015.
Tian M F. Research on parallel dynamic association rules mining in the context of large data[D]. Lanzhou: Lanzhou Jiaotong University, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10732-1015448422.htm
[44] 刘江华, 程君实, 陈佳品. 支持向量机训练算法综述[J]. 信息与控制, 2002, 31(1): 45–50.
Liu J H, Cheng J S, Chen J P. A review of support vector machine training algorithm[J]. Information and Control, 2002, 31(1): 45–50.
[45] Wu X D, Kumar V, Quinlan J R, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1): 1–37.
[46] Quinlan J R. C4. 5: Programs for machine learning[D]. San Mateo: California Morgan Kaufmann, 1993.
[47] 栾丽华, 吉根林. 决策树分类技术研究[J]. 计算机工程, 2004, 30(9): 94–96.
Luan L H, Ji G L. The study on decision tree classification techniques[J]. Computer Engineering, 2004, 30(9): 94–96.
[48] Rissanen J, Agrawal R, Mehta M. SLIQ: A fast scalable datamining[C]//International Conference on Very Large Data Bases. San Francisco, USA: Morgan Kaufmann Publishers, 1996.
[49] Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers[J]. Machine Learning, 1997, 29(1): 131–163.
[50] Liu B, Hsu W, Ma Y. Knowledge discovery and data mining[C]//4th International Conference on AAAI. Menlo Park, CA, USA: AAAI Press, 1998.
[51] 李伟卫, 李梅, 张阳, 等. 基于分布式数据仓库的分类分析研究[J]. 计算机应用研究, 2013, 30(10): 2936–2939, 2943.
Li W W, Li M, Zhang Y, et al. Research of classification analysis for distributed data warehouse[J]. Application Research of Computers, 2013, 30(10): 2936–2939, 2943. DOI:10.3969/j.issn.1001-3695.2013.10.013
[52] Park J, Sandberg I W. Universal approximation using radial-basis-function networks[J]. Neural Computation, 1991, 3(2): 246–257. DOI:10.1162/neco.1991.3.2.246
[53] 毛国君, 胡殿军, 谢松燕. 基于分布式数据流的大数据分类模型和算法[J]. 计算机学报, 2017(1): 161–175.
Mao G J, Hu D J, Xie S Y. Large data classification model and algorithm based on distributed data stream[J]. Chinese Journal of Computers, 2017(1): 161–175. DOI:10.11897/SP.J.1016.2017.00161
[54] 耿丽娟, 李星毅. 用于大数据分类的KNN算法研究[J]. 计算机应用研究, 2014, 31(5): 1342–1344, 1373.
Geng L J, Li X Y. Research on KNN algorithm for large data classification[J]. Application Research of Computers, 2014, 31(5): 1342–1344, 1373.
[55] 杨善林, 李永森, 胡笑旋, 等. K-means算法中的k值优化问题研究[J]. 系统工程理论与实践, 2006, 26(2): 97–101.
Yang S L, Li Y S, Hu X X. Optimization study on k value of K-means algorithm[J]. Systems Engineering Theory & Practice, 2006, 26(2): 97–101.
[56] Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972–976. DOI:10.1126/science.1136800
[57] Rodriguze A, Laio A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492–1496. DOI:10.1126/science.1242072
[58] Ankerst M, Breuning M, Kriegel H P, et al. OPTICS: Ordering points to identify the clustering structure[C]//Proceeding of 1999 ACM-SIGMOD International Conference on Management of Data. New York, USA: ACM, 1999: 49-60.
[59] Zhang T, Ramakrishnan R, Livny M. BIRCH: An efficient data clustering method for very large databases[C]//Proceeding of 1996 ACM-SIGMOD International Conference on Management of Data. New York, USA: ACM, 1996: 103-114. https://wenku.baidu.com/view/b1a4cc629ec3d5bbfc0a7440.html
[60] Markley S C, Miller D J. Joint parsimonious modeling and model order selection for multivariate Gaussian mixure[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4(3): 548–559. DOI:10.1109/JSTSP.2009.2038312
[61] Kohonen T. Self organized formation of topologically correct feature mape[J]. Biological Cybernetics, 1982, 43(1): 59–69. DOI:10.1007/BF00337288
[62] Hinton G E, Osindero S, The Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527–1554. DOI:10.1162/neco.2006.18.7.1527
[63] Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1–127.
[64] 尹宝才, 王文通, 王立春, 等. 深度学习研究综述[J]. 北京工业大学学报, 2015, 41(1): 48–59.
Yin B C, Wang W T, Wang L C. Review of deep learning[J]. Journal of Beijing University of Technology, 2015, 41(1): 48–59.
[65] 康岩. 深度学习在球磨机料位软测量建模中的应用研究[D]. 太原: 太原理工大学, 2014.
Kang Y. Research on the application of deep learning in the soft sensor modeling of ball mill[D]. Taiyuan: Taiyuan University of Technology, 2014. http://cdmd.cnki.com.cn/Article/CDMD-10112-1014417370.htm
[66] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[M]//Advances in Neural Information Processing Systems. Berlin, Germany: Springer, 2012: 1097-1105.
[67] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//IEEE Conferenceon Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2009: 248-255. http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5206848
[68] Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211–252. DOI:10.1007/s11263-015-0816-y
[69] Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[M]//Advances in Neural Information Processing Systems. Berlin, Germany: Springer, 2007.
[70] Gehring J, Miao Y, Metze F, et al. Extracting deep bottleneck features using stacked auto-encoders[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA: IEEE, 2013: 3377-3381. https://www.researchgate.net/publication/240076866_Extracting_deep_bottleneck_features_using_stacked_auto-encoders
[71] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. DOI:10.1126/science.1127647
[72] Harrison M A. Introduction to switching and automata theory[M]. New York, USA: MacGraw-Hill, 1965.
[73] Savage J E. The complexity of computing[M]. New York, USA: Wiley, 1976.
[74] Steven F, James W. Parallelism in random access machines[C]//Proceedings of the 10th Annual ACM Symposium on Theory of Computing. New York, USA: ACM, 1978: 114-118. https://dl.acm.org/citation.cfm?doid=800133.804339
[75] van Leeuwen J. Handbook of theoretical computer science(vol.A):Algorithms and complexity[M]. Cambridge, USA: MIT Press, 1991.
[76] 程学旗, 靳小龙, 王元卓, 等. 大数据系统和分析技术综述[J]. 软件学报, 2014, 25(9): 1889–1908.
Cheng X Q, Jin X L, Wang Y Z. A survey of large data systems and analysis techniques[J]. Journal of Software, 2014, 25(9): 1889–1908.
[77] Dean J. Mapreduce:Simplified data processing on large clusters[J]. Osdi', 2004, 51(1): 107–113.
[78] Isard M, Budiu M, Yu Y, et al. Dryad: Distributed data-parallel programs from sequential building blocks[C]//Proceedings of the 2nd ACM European Conference on Computer Systems. New York, USA: ACM, 2007: 59-72. https://www.researchgate.net/publication/306548354_Dryad_Distributed_data-parallel_programs_from_sequential_building_blocks
[79] Zaharia M, Chowdhury M, Franklin M J, et al. Spark:Cluster computing with working sets[J]. Book of Extremes, 2010, 15(1): 1765–1773.
[80] Melnik S, Gubarev A. Dremel:Interactive analysis of web-scale datasets[J]. Communications of the ACM, 2011, 54(6): 114–123. DOI:10.1145/1953122
[81] The Apaehe Foundation. Storm official website[EB/OL]. (2017-11-02)[2018-02-07]. https://storm.apache.org/.
[82] Malewicz G, Austern M H, Bik A J C, et al. Pregel: A system for large-scale graph processing[C]//ACM SIGMOD International Conference on Management of Data. New York, USA: ACM, 2010: 135-146. https://www.researchgate.net/publication/221257383_Pregel_A_system_for_large-scale_graph_processing?ev=auth_pub
[83] Valiant L G. A bridging model for parallel computation[J]. Communication of the ACM, 1990, 33(8): 103–111. DOI:10.1145/79173.79181
[84] Schulz M, Bronevetsky G, Fermandes R, et al. Implementation and evaluation of a scalable application-level checkpoint-recovery scheme for MPI programs[C]//Proceedings of the ACM/IEEE Science Conferenceon the Supercomputing. New York, USA: ACM, 2004.
[85] Neo4j[EB/OL]. (2017-09-27)[2017-10-08]. http://www.neo4j.org/.
[86] Trinity[EB/OL]. (2017-08-27)[2017-09-07]. http://research.microsoft.com/trinity.
[87] Shao B, Wang H, Li Y. Trinity: A distributed graph engine on a memory cloud[C]//Proceedings of the 2013 International Conference on Management of Data. New York, USA: ACM, 2013: 505-516. https://www.researchgate.net/publication/262244020_trinity_a_distr
[88] 代双凤, 董继阳, 薛健, 等. 科学计算中大数据可视化分析与应用[J]. 工程研究, 2014(3): 275–281.
Dai S F, Dong J Y, Xue J, et al. Large data visualization analysis and application in scientific computing[J]. Engineering Studies, 2014(3): 275–281.
[89] Zhao J, Chevalier F, Collins C, et al. Facilitating discourse analysis with interactive visualization[J]. IEEE Transactions on Visualization and Computer Graphics, 2012, 18(12): 2639–2648. DOI:10.1109/TVCG.2012.226
[90] Collins C, Carpendale S, Penn G. DocuBurst:Visualizing document content using language structure[J]. Computer Graphics Forum, 2009, 28(3): 1039–1046. DOI:10.1111/cgf.2009.28.issue-3
[91] Herman I, Melancon G, Marshall M S. Graph visualization and navigation in information visualization:A survey[J]. IEEE Transactions on Visualization and Computer Graphics, 2000, 6(1): 24–43. DOI:10.1109/2945.841119
[92] Shneiderman B. Tree visualization with tree-maps:2nd spacing-filling approach[J]. ACM Transactions on Graphics, 1992, 11(1): 92–99. DOI:10.1145/102377.115768
[93] Halevi G, Moed H. The evolution of big data as a research and scientific topic:Overview of the literature[J]. Research Trends, 2012, 30(1): 3–6.
[94] Hey T, Gannon D, Pinkelman J. The future of data-intensive science[J]. Computer, 2012, 45(5): 81–82. DOI:10.1109/MC.2012.181
[95] Keim D A, Kriegel H P. Visualization techniques for mining large databases:A comparison[J]. IEEE Transactions on Knowledge and Data Engineering, 1996, 8(6): 923–938. DOI:10.1109/69.553159
[96] Ahlberg C, Shneiderman B. Visual information seeking: Tight coupling of dynamic query filters with starfield displays[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York, USA: ACM, 1994: 313-317. http://www.sciencedirect.com/science/article/pii/B9781558609150500044
[97] 胡琴琴. 基于Hadoop的数据可视化技术研究与应用[D]. 北京: 北方工业大学, 2016.
Hu Q Q. Research and application of data visualization technology based on Hadoop[D]. Beijing: North China University of Technology, 2016. http://cdmd.cnki.com.cn/Article/CDMD-10009-1016184899.htm
[98] 张向宇. 工业炉温度场可视化与辐射特性参数解耦重建研究[D]. 武汉: 华中科技大学, 2011.
Zhang X Y. Research on visualization of temperature field of industrial furnace and decoupling reconstruction of radiation characteristic parameters[D]. Wuhan: Huazhong University of Science and Technology, 2011. http://cdmd.cnki.com.cn/Article/CDMD-10487-1011110394.htm
http://dx.doi.org/10.13976/j.cnki.xk.2018.8085
中国科学院主管,中国科学院沈阳自动化研究所、中国自动化学会共同主办。
0

文章信息

何文韬, 邵诚
HE Wentao, SHAO Cheng
工业大数据分析技术的发展及其面临的挑战
The Development and Challenges of Industrial Big Data Analysis Technology
信息与控制, 2018, 47(4): 398-410.
Information and Control, 2018, 47(4): 398-410.
http://dx.doi.org/10.13976/j.cnki.xk.2018.8085

文章历史

收稿/录用/修回: 2018-02-09/2018-03-12/2018-03-30

工作空间