您的当前位置:首页正文

工业大数据及其技术挑战

来源:画鸵萌宠网
网络技术

《电信网技术》2017年8月第8期

七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七七工业大数据及其技术挑战七七七七七七七七七七七七七七七七七七网络技术——云计算与大数据专题王晨北京工业大数据创新中心总工程师郭朝晖清华大学软件学院特聘研究员王建民清华大学软件学院院长,教授

摘要:随着智能制造和工业互联网的发展,越来越依赖信息技术,特别是大数据技术作为关键要素进行支撑。无论是国际制造业的领先企业,还是我国的制造业国家战略都明确了工业大数据技术研发的重要性。本文针对工业大数据的内涵、工业大数据的数据特点、工业大数据的应用特性进行了详细的分析,并有针对性地探讨了工业大数据这一新兴技术在数据采集、管理、数据质量、分析等方面所遇到的挑战。

关键词:工业大数据;工业互联网;挑战

1引言

信息技术特别是大数据技术正在给传统工业发展

数据是智能制造与工业互联网的核心,其本质是通过促进数据的自动流动去解决和控制业务问题,减少决策过程中所带来的不确定性,并尽量克服人工决策的缺点。

(1)从工业大数据的空间分布来看

工业大数据不仅存在于企业内部,还存在于产业链和跨产业链的经营主体中。企业内部数据,主要是指MES、ERP、PLM等自动化与信息化系统中产生的数据。产业链数据是企业供应链(SCM)和价值链(CRM)上的数据,主要是指企业产品供应链和价值链中来自于原材料、生产设备、供应商、用户和运维合作商的数据。跨产业链数据,指来自于企业产品生产和使用过程中相关的市场、地理、环境、法律和政府等外部跨界信息和数据。

(2)从工业大数据的产生源头来看

人和机器是产生工业大数据的主体。人产生的数据是指由人输入到计算机中的数据,例如设计数据、业务数据、产品评论、新闻事件、法律法规等。机器数据是指由传感器、仪器仪表和智能终端等采集的数据。对特定企业而言,机器数据的产生主体可分为生产设备和工业产品两大类。生产设备是指作为企业资产的生产工具,工业产品是企业交付给用户使用的物理载体。生产设备数据主要服务于智能生产,工业产品数

方式带来颠覆性、革命性的影响。美国通用电气公司的《工业互联网白皮书》中指出,工业互联网实现的三大要素是智能联网的机器、人与机器协同工作及先进的数据分析能力。国际领先制造业企业GE、西门子等都已开始在此方面的产品研发与应用。

中国制造业发展并不均衡,工业1.0、2.0、3.0并存,企业较为普遍地存在着研发创新能力弱、产品质量差、能源消耗大、污染物排放多、管理粗放、自动化和信息化水平低等问题。而大数据正是提升产品质量、生产效率,降低能耗,转变高耗能、低效率、劳动密集、粗放型生产方式,提升制造智能化水平的必要手段。《中国制造2025》规划中明确指出,工业大数据是我国制造业转型升级的重要战略资源。本文对工业大数据进行了分析,然后探讨了工业大数据相应的技术挑战。

2工业大数据的内涵

工业大数据(即工业数据的总和)分为三大类,即

企业信息化数据、工业物联网数据以及外部跨界数据。其中,企业信息化和工业物联网中机器产生的海量时序数据是工业数据规模变大的主要来源。工业大

·1·

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.□TELECOMMUNICATIONSNETWORKTECHNOLOGYNo.8NETWORKTECHNOLOGY据则侧重于智能服务。

随着互联网与工业的深度融合,机器数据的传输方式由局域网络走向广域网络,从管理企业内部的机器拓展到管理企业外部的机器,支撑人类和机器边界的重构、企业和社会边界的重构,释放工业互联网的价值。近年来,智能制造和工业互联网推动了以“个性化定制、网络化协同、智能化生产和服务化延伸”为代表的新兴制造模式的发展,未来由人产生的数据规模的比重将逐步降低,机器数据所占据的比重将越来越大。

业务智能化的过程中。跨尺度是工业大数据的首要特征,是由工业的复杂系统性所决定。“牵一发而动全身”是对协同性的形象描述、是系统性的典型特征。多因素、因果性、强机理体现在工业大数据支撑过程分析、对象建模、知识发现,并应用于业务持续改进的过程中。多因素是指影响某个业务目标的因素特别多,因果性源于工业系统对确定性的高度追求,强机理是获得高可靠分析结果的保证。

4工业大数据的技术挑战

如图1所示,工业大数据处理的过程涉及多个不

3工业大数据的特点

工业系统往往具有复杂动态系统特性,确定性是

同阶段。大数据生命周期的主要环节如图1的上半部分所示,图1的下半部分是大数据应用中所要考虑的非功能性要求,这些需求使得分析任务具有挑战性。结合工业大数据的数据特点和应用特性,生命阶段的技术挑战可以归纳为:在数据获取、记录阶段主要需要解决的多样性数据的采集技术与高通量数据的写入技术;在抽取、清洗、注释环节关注的低质量数据的处理技术;在集成、聚集、表达环节亟需突破的多模态数据的管理技术和强关联数据的集成技术;在分析、建模和阐释环节最重要的强机理业务的分析技术。

工业系统本身能够有效运行的基础,不确定性是工业系统必须面临的客观存在,有效应对不确定性是工业系统相关各方追求的目标,也是工业大数据发挥作用的重点方向。而工业大数据技术挑战来源于工业大数据的数据特点和应用特性。

从工业大数据的数据特点来看,工业大数据首先符合大数据的4V特征,即大规模(Volumn)、速度快(Velocity)、类型杂(Variety)、低质量(Veracity)。但作为对工业相关要素的数字化描述和在赛博空间的映像,工业大数据集还具有多模态、强关联、高通量等特征。系统化特征,反映工业系统的各方

●多模态体现了工业系统的

面要素,不仅仅是数据格式的差异性,而是数据内结构呈现出多模态特征。

的是工业的系统性及其复杂动态关义层面。

涉及海量的设备与测点、数据采集

●机器设备所产生的时序数据

图1工业大数据生命周期

●工业数据之间的强关联反映

系,数据之间的关联更多体现在语

频度高(产生速度快)、数据总吞吐量大、7×24持续不断,呈现出高通量的特征。

工业大数据的应用特征可归纳为跨尺度、协同性、多因素、因果性、强机理等几个方面。跨尺度、协同性主要体现在大数据支撑工业企业在线业务活动、推进

(1)多样性数据的采集技术

工业软硬件系统本身具有较强的封闭性和复杂性,不同系统的数据格式、接口协议都不相同,甚至同一设备同一型号的不同时间出厂的产品所包含的字段数量与名称也会有所差异,因而无论对于采集系统对

·2·

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.网络技术

《电信网技术》2017年8月第8期

数据进行解析,还是后台数据存储系统对数据进行结构化分解都会带来巨大的挑战。由于协议的封闭,甚至无法完成从设备对数据的采集,在可以采集的情况下,在一个工业大数据项目实施过程中,通常也至少需要数月的时间对数据格式与字段进行梳理。挑战性更大的是多样性的非结构化数据,由于工业软件的封闭性,数据通常只有特定软件才能打开,从中提取更多有意义的结构化信息工作通常很难完成。这类挑战需要工业标准化的推进与数据模型自动识别、匹配等大数据管理技术进步共同解决。

(2)高通量数据的写入技术

在越来越多工业信息化系统以外的数据被引入大数据系统的情况下,特别是针对传感器产生的海量时间序列数据,一个装备制造企业同时接入的设备数量可达数十万台,数据的写入吞吐达到了百万数据点/秒~千万数据点/秒,大数据平台需要具备与实时数据库一样的数据写入能力。考虑到大数据平台要对数据进行长时间存储,其高效的数据编码压缩方法以及低成本的分布式扩展能力也是重要的挑战。另一方面,数据在使用上,不仅是对数据在时间维度进行简单地回放,而且对于数据多条件复杂查询以及分析性查询也有着极高的要求。因此,针对数据写入面临的挑战,工业大数据平台需要同时考虑面向查询优化的数据组织和索引结构,并在数据写入过程中进行一定的辅助数据结构预计算,实现读写协同优化的高通量数据写入。

(3)低质量数据的处理技术

“大数据分析”期待利用数据规模弥补数据的低质量。由于工业数据中变量代表着明确的物理含义,低质量数据会改变不同变量之间的函数关系,给工业大数据分析带来灾难性的影响。但事实上制造业企业的信息系统数据质量仍然存在大量的问题,如ERP系统中物料存在的“一物多码”问题。物联网数据质量也堪忧,无效工况、重名工况、时标错误、时标不齐等数据质量问题在很多真实案例中可以达到30%以上。这些质量问题都大大限制了对数据的深入分析,因而需要在数据分析工作之前进行系统的数据治理。

工业应用中因为技术可行性、实施成本等原因,很多关键的量没有被测量,或没有被充分测量(时间/空

间采样不够、存在缺失等)以及没有被精确测量(数值精度低),这就要求分析算法能够在“不完备”、“不完美”、“不精准”的数据条件下工作。在技术路线上,可大力发展基于工业大数据分析的“软”测量技术,即通过大数据分析,建立指标间的关联关系模型;通过易测的过程量去推断难测的过程量,提升生产过程的整体可观可控。

(4)多模态数据的管理技术

各种工业场景中存在大量多源异构数据,如结构化业务数据、时序的设备监测数据、非结构化工程数据等。每一类型数据都需要高效的存储管理方法与异构的存储引擎,但现有大数据技术难以满足全部要求。以非结构化工程数据为例,特别是对海量设计文件、仿真文件、图片、文档等小文件,需要按产品生命周期、项目、BOM结构等多种维度进行灵活有效的组织、查询,同时需要对数据进行批量分析、建模,对于分布式文件系统和对象存储系统均存在技术盲点。另外,从使用角度上,异构数据需要从数据模型和查询接口方面实现一体化的管理。例如,在物联网数据分析中,需要大量关联传感器部署信息等静态数据,而此类操作通常需要将时间序列数据与结构化数据进行跨库连接,因而需要针对多模态工业大数据的一体化查询协同进行优化。

(5)强关联数据的集成技术

工业大数据分析更关注数据源的“完整性”,而不仅仅是数据的规模。由于“信息孤岛”的存在,这些数据源通常是离散的和非同步的。工业大数据应用需要实现数据在物理信息、产业链以及跨界3个层次的融合。

●物理信息融合

表现在设计开发阶段主要管理数字产品,而在制造服务阶段主要管理物理产品,跨生命周期管理需要融合数字产品和物理产品,从而构建工业信息物理融合系统。

●产业链融合

表现在互联网大数据环境下,以资源整合优化为目标的云制造模式得以迅速发展,智能产业链需要突破传统企业边界,实现数据驱动的业务过程集成。

·3·

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.□TELECOMMUNICATIONSNETWORKTECHNOLOGYNo.8NETWORKTECHNOLOGY●跨界融合

颈不同,需要分析算法甚至分析软件特别的考虑。产技术人员的知识盲点,实现过程痕迹的可视化。例如,对于物理过程环节,重视知识的“自动化”,而不是知识的“发现”。将领域知识进行系统化管理,通过大数据分析进行检索和更新优化;对于相对明确的专家知识,借助大数据建模工具提供的典型时空模式描述与识别技术,进行形式化建模,在海量历史数据上进行验证和优化,不断萃取专家知识。

●与领域专家经验知识的融合方法,突破现有生

是指在“互联网+”的环境下,企业需要将外部跨界数据源进行集成,如美国某农机公司将天气数据、灌溉数据、种子数据以及农机数据进行综合利用,为农场提供粮食增产服务。

这与其它领域大数据集成具有明显差异,因此不仅需要从数据模型,更需要从制造过程、层次化物料表(BillOfMaterial,BOM)结构、运行环境等多类型工业语义层面对工业大数据进行一体化整合管理。

(6)强机理业务的分析技术

工业过程通常是基于“强机理”的可控过程,存在大量理论模型,刻画了现实世界中的物理、化学、生化等动态过程。另外,也存在着很多的闭环控制/调节逻辑,让过程朝着设计的目标逼近。在传统的数据分析技术上,很少考虑机理模型(完全是数据驱动),也很少考虑闭环控制逻辑的存在。强机理对分析技术的挑战主要体现在3个方面:

数据模型(例如机理模型为分析模型提供关键特征,分析模型做机理模型的后处理或多模型集合预测)或者将数据模型输入到机理模型(提供ParameterCalibration)。

(CPU多核或计算Cluster并行化)或内存密集型(GPU

●计算模式上融合,机理模型通常是计算密集型●机理模型的融合机制,如何将机理模型引入到

5结束语

工业大数据既是智能制造和工业互联网实现路径

中的要素,又是一种与领域高度融合发展新兴大数据技术,需要广大科研人员和产业工作者在实践中一边摸索、一边突破。清华大学、冶金自动化研究设计院、北京工业大数据创新中心、东方国信等科研与软件产业化力量,金风科技、陕鼓动力、中联重科、上海仪电等工业企业,已经开始在进行相关探索并取得了一定成绩。作为制造业大国,我国时刻产生着海量的工业数据。应该充分利用这一条件,创新管理思想、重构产业生态,提升中国制造在全球产业链分工中的地位。用工业大数据提高产品质量、管理水平,弥补在人员素质方面的差距,补齐落后的短板。在此基础上,推进智能制造和工业互联网的应用,力争在新工业革命时代实现换道超车。

并行化),而数据分析通常是I/O密集型(采用Map-reduce、ParameterServer等机制),二者的计算瓶

Industrialbigdataanditstechnicalchallenges

WANGChen,GUOZhaohui,WANGJianmin

Abstract:WiththeadvanceanddevelopmentofIndustry4.0andIndustryInternet,informationtechnology,especiallybigdatatechnology,becomesoneofthekeyfactors.Globalleadingmanufacturesand“MadeinChina2025”strategyofChinaallillustratetheimportanceofdevelopingindustrialbigdatatechnology.Inthispaper,weanalyzedtheconceptsandcharacteris-ticsofindustrialbigdataindetail,anddiscussedthecorrespondingtechnicalchallengesindatacollection,datamanagement,dataqualityandanalyticsofthisarea.

Keywords:industrialbigdata;industryinternet;challenges

(收稿日期:2016-07-20)

·4·

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.

因篇幅问题不能全部显示,请点此查看更多更全内容

Top