文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.02.002
中文引用格式: 李少波,陳永前. 大數據環境下制造業關鍵技術分析[J].電子技術應用,2017,43(2):18-21,25.
英文引用格式: Li Shaobo,Chen Yongqian. Analysis on key technologies of manufacturing industry in big data environment[J].Application of Electronic Technique,2017,43(2):18-21,25.
0 引言
大數據(Big Data)這一概念的提出最早可以追溯到上世紀80年代[1],當時并沒有得到人們的關注。直到2008年,著名雜志Nature出版了專刊《Big Data:Science in the Petabyte Era》[2],從經濟學、互聯網技術、環境科學等多個領域介紹海量數據帶來的挑戰。從此大數據一詞被廣泛傳播,受到了各個國家、政府及各界的廣泛關注與研究,并在IT、金融、互聯網等行業得到了較大的發展與利用[3]。
制造業作為國家經濟支柱性產業,是我國綜合國力的表現,充分地應用和挖掘制造業中的數據逐漸成為行業研究和討論的熱點[4]。制造業具有地理分布廣泛,制造類型多,制造過程復雜多樣,涉及領域廣等眾多特點,是人類社會中最復雜的行業之一,這決定了制造業將產生龐大的數據量,且有著類型豐富、結構多樣、增長速度快等特點,是一個典型的行業大數據體現,以一個的典型的紡織制造企業來說,光是一個制造車間一天的數據量都將達到84 GB[5]。在制造業這種龐大的數據量與爆炸式的增長新形勢下,傳統的制造業技術將不再夠用,不能滿足制造行業從海量數據中快速獲取知識與信息的需求。因此,在大數據環境下,制造技術將發生巨大的進步與改革。
1 大數據下的制造業數據特點
1.1 大數據下的制造業數據來源
大數據不僅僅是一種數據處理技術,而是一種總體視角的體現,是一種綜合關聯性分析,發現具有潛在聯系之間的相關性,如將大數據單獨割裂來看,則大數據的大價值無從體現[6]。因此在進行制造業大數據分析時,必須全面地考慮制造業的數據來源。在互聯網、物聯網、移動互聯等技術快速發展的今天,制造業的數據來源不僅包括了產品設計與開發、產品加工與設備運行、倉庫管理等行業數據,同時還包含了市場、客戶關系、政府計劃、互聯網等外部數據。制造業大數據來源如圖1所示。
1.2 大數據下的制造業數據特點
“大數據”一詞在業界都被普遍認為有著“3V”特征[7],即Volume(容量大)、Variety(種類多)、Velocity(速度快)。在制造業具有十分強的專業性、時序性、關聯性、流程性等特點情況下,不僅擁有大數據的“3V”特征,而且還有以下特征[8-9]:(1)強相關與高維度性。制造業各個數據間往往相互關聯相互耦合,從而構成一個復雜多變量的高維系統。(2)強烈的非線性。在產品的生產過程中的許多物理和化學變化都表現為不可測的、非線性的。(3)高噪聲。互聯網大數據主要在乎數據的統計顯著性,對數據噪音并沒有太大的要求,而對于制造業,只要出現一點差錯,都會造成巨大的損失,因此數據的高噪音是制造業大數據不可忽視的。
2 制造業的大數據技術架構
制造業的大數據分析平臺是根據業務的需求逐步勾畫出來的[10]。針對制造業大數據的業務特點,制造業大數據平臺在功能上應滿足多種類型數據的采集與導入,能存儲海量的、多樣的、多類型的制造業大數據,支持多種類型的數據分析方法和數據展示方法。從性能方面考慮,制造業大數據平臺總架構應滿足可擴展性、高錯容性與可靠性、實時性、較好的安全性以及低成本等要求[11]。
在制造過程中,對大數據的實時分析與處理,對制造過程的實時決策及實時控制,是企業生產安全有序進行、及時決策、提高效率、減少損失的重要保障[12]。另一方面,制造業是一個高維非線性的復雜性行業,一個普通的制造企業,其內部就包含著許多子系統,例如制造執行系統(MES)、企業資源計劃(ERP)、產品數據管理(PDM)等。每一個子系統往往又包含著許多業務流程,產生著大量的數據,甚至可以單獨構成一個領域的大數據,例如供應鏈管理大數據就是大數據在供應鏈的一個應用[13]。
綜上,根據制造業實際需求和業務狀況相結合,勾畫出制造業大數據技術架構如圖2所示。在該架構中,系統先將各種來源的數據進行集成處理,再根據對各部分數據的要求與特點選擇不同的處理方式,并根據業務的需求進行分析,最后用不同的數據展現方式將信息傳達給各個應用系統。
3 大數據下的制造業關鍵技術
3.1 大數據集成技術
數據集成技術就是把不同來源、格式、特點、性質的數據在邏輯上或者物理上有機地集中,為系統存儲一系列面向主題的、相對穩定的、反映歷史變化的數據集合,從而為系統提供全面的數據共享[14]。大數據的集成技術是解決制造企業各系統間的數據沉余和“信息孤島”的重要工具。按照數據集成點不同,可以將其分為源端和應用端數據集成。
(1)源端數據集成。在制造企業中,數據來源十分廣泛,數據格式復雜,不僅有傳統的內部生產數據,還有市場數據、客戶關系數據、價值鏈數據等。面對重多的數據來源和格式,如果直接將其進行大數據分析,不但會導致分析速度的下降,而且還會影響數據分析的質量[15],因此在數據分析前將數據集成為統一格式是制造業大數據分析的重要步驟。源端數據集成如圖3所示。
(2)應用端的數據集成。制造業內部存在許多應用系統,例如生產應用、供應鏈應用、定制應用等,不同的應用系統間往往有不同的數據庫和數據形式,且各個應用系統之間的數據一般只能供自己使用,而這樣就很容易產生信息孤島。對應用端數據進行集成將會利于各個部門與系統間的信息共享,避免企業信息孤島的產生。應用端數據集成如圖4所示。
3.2 大數據存儲技術
大數據下的制造業對數據存儲將面臨著以下挑戰:(1)存儲數據量大,制造業大數據量將達到PB級別甚至更高;(2)制造業大數據來源廣,數據形式和數據結構都比較復雜;(3)滿足數據的完整性;(4)數據讀取和寫入速度應達到業務的需求;(5)具備可擴展性。顯然,傳統的數據庫明顯有點力不從心,制造業大數據的存儲還要尋求新的方法。分布式文件系統是大數據時代數據存儲最好的工具,比較有代表性的分布式文件系統當屬Hadoop的HDFS[16]。HDFS是受到Google文件系統(GFS)的啟發而構建的,有著支持超大文件、低延遲數據訪問、高錯容性、可擴展、可運行在普通機器上等優點[17],HDFS的工作原理如圖5所示[10][18]。
3.3 大數據處理技術
制造業的大數據處理技術主要包含了批處理、流處理和內存計算[19],分別滿足制造業大數據處理的不同需求。
3.3.1 批處理技術
目前最主流的批處理技術當屬Google公司在2004年提出的MapReduce分布式計算模式,基于該框架寫出來的應用程序可以在普通機器群集上運行,能夠輕松地處理TB級別以上的數據集,且有良好的錯容性。
在MapReduce中,一個計算流程分為map和reduce兩個階段。在map階段,其輸入文件(Input file)往往會被劃分為固定大小的輸入塊(split)。每個塊都會對應著一個map任務,該map任務中的map函數會作用于split中的每一個記錄(record),一個記錄就是一個<key,value>鍵值對。map任務完成后,其結果(<key,value>鍵值對)會被進行分區(partition),然后暫時寫入到磁盤中,為reduce階段做準備。在reduce階段,map階段的每個partition都會被分配至某個reduce任務,等到reduce階段處理完成后,其結果將會被存入到分布式文件系統(HDFS)中。MapReduce整個處理流程如圖6所示[12]。
3.3.2 流處理技術
批處理技術對大批量靜態的數據處理是有效的,然而在制造企業中,不光要處理大批量的靜態數據,而且還要處理像生產監控數據、故障警報數據等動態和大批量小數據。
流處理(Stream Computing)技術對這種數據的處理往往是非常有效的[20]。當有數據到來時,流處理工具就應該立刻響應,然后把處理后得到的信息馬上呈送給用戶或系統,這種數據處理無須數據準備時間,從而有很好的實時性。目前,流處理計算框架主要有:Apache S4、Storm、Scribe、Kafka等,下面用比較主流的S4進行介紹。
S4(Simple Scalable Streaming System)[21-22]是一個分布式流計算模型,S4有著良好的通用性、可擴展性、錯容性等優點。S4在對數據處理時,將數據流看成是事件(Event)的序列流。每個Event是一個(K,A)元素,通過EventType來標示其類型。K、A分別表示這種類型的 Event的若干個關鍵字和若干個屬性。在這種抽象的基礎上,設計者將Processing Elements(PE)定義為S4中的最小數據計算單元。每個PE只負責處理Event type、屬性Key和屬性Value都匹配的事件,并最終輸出結果或新的(K,A)元素。每個S4都包含有若干個這樣的PE,當數據到來時,便立刻共同作業,完成數據流的處理。
3.3.3 內存計算
內存計算技術,就是指CPU直接從內存上讀取數據,并進行計算、分析。內存計算大大減少了從硬盤讀取數據的時間,是對傳統數據處理模式的一種速度提升。比較有代表性的內存計算系統有SAP HANA、Oracle Exadata和IBM pureData。
較批處理與流處理來說,內存計算的最大優勢就在于其處理數據的速度,從而決定了內存計算非常適合需要實時獲得結果的數據,是制造業大數據分析和數據處理中的關鍵應用技術之一。 內存計算的原理非常簡單,如圖7所示[20]。
3.4 大數據分析技術
大數據技術的根本驅動力是將信號轉化為數據,將數據分析為消息,將消息提煉為知識,以知識促成決策和應用[24]。經過數據的集成與處理后,所得的數據便成為數據分析的原始數據,根據業務的需求與應用,再對數據進一步的分析,最后得到所需要的知識。
傳統意義上的數據分析技術是先將數據進行存儲,然后對數據進行篩選,建立數據中心,在此基礎上建立數據倉庫,再根據業務需求來進行聯機分析處理(OLAP)[11]。這種方法對于結構復雜、實時性要求高,分析程度較深的制造業大數據來說是無能為力的。根據制造業大數據的數據特點與業務要求,制造業大數據的數據分析主要面臨的困難是大量非結構化復雜數據分析和實時預測分析。因此可以利用以下思想去解決制造業大數據的分析難題:(1)對數據進行處理。在面臨結構復雜的大數據時,利用粒化思想,將大數據進行粒分,變大數據為小數據后再進行分析;(2)加強對新一代數據分析工具的利用與研究。例如EMC的GreenPlum數據分析工作臺、Teradata的Aster Data平臺等;(3)通過人工智能和機器學習等技術分析大數據[24]。
3.5 大數據展現技術
制造業的大數據展現技術可以分為制造過程數據展現技術、歷史數據展現技術及可視化技術。
制造過程數據展現技術是制造業大數據展現技術的關鍵部分。隨著制造物聯的快速發展,制造企業會產生大量生產現場實時數據,如果將這些實時數據實時展現出來,那么就可以清晰地了解到生產現場的實時變化情況,這樣不僅提高了企業的生產效率,而且能完善企業的資源配置,是實現智慧生產的重要步驟。
歷史數據展現技術主要體現在制造業對歷史數據的管理和展示上,這里的歷史數據一般指對實時性要求不是太強的數據,例如企業生產歷史數據、客戶關系數據、競爭對手數據等。企業對歷史數據分析展現,可以繪制出數據的發展趨勢并預測出未來的數據走勢,可以模擬歷史重大事件發生與演變,挖掘歷史事件潛在的知識與規律。
數據可視化技術是指運用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的方法和技術[25]。制造業的復雜性、多系統性決定了數據的分析結果會呈現出多維的特點。數據可視化技術正是解決這一系列問題的,它以一種簡單易懂的方式將復雜的數據呈現給我們,不僅讓我們更容易去理解數據,而且對發現數據中新的信息也起到非常關鍵的作用。目前常見的可視化技術有Tag cloud、History flow、Spatial information flow等。
4 結語
“中國制造2025”和德國“工業4.0”紛紛指出智能制造是制造業未來的發展趨勢,而大數據技術則是助力實現智能制造不可缺失的一把利劍。將來,制造技術不光是指傳統的機械加工等技術,而是一種集制造業與互聯網、物聯網、移動互聯、大數據、云計算等信息技術為一體的新局面,這是制造業智能化、綠色化的必要前提。大數據技術已廣泛使用在互聯網、電商、金融等行業,并創造了較大的商業價值,然而對于制造業來說,乃處在起步甚至是研究階段。因此,大力發展制造業大數據技術,挖掘制造業大數據的最大價值,促進制造業的轉型升級將是制造企業下一階段的重要任務與課題。
參考文獻
[1] 迪莉婭.我國大數據產業發展研究[J].科技進步與對策,2014,31(4):56-60.
[2] MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,competition,and productivity[M].New York:Mc Kinse & Company,2011.
[3] EKBLA H,MATTLOLL M,KOUPER I.Big Data,Bigger Dilemmas:A Critical Review[J].Journal of the Association for Information Science and Technology,2015(8).
[4] 王冰.大型流程工業集團級生產數據平臺的應用探討[J].科技與企業,2014(1):129-130.
[5] 邵景鋒,賀興時,王進富,等.大數據環境下的紡織制造執行系統設計[J].機械工程學報,2015(5):160-170.
[6] 中國電機工程學會信息化專委會.中國電力大數據發展白皮書[M].北京:中國電力出版社,2013(11).
[7] Bello-Orgaz G,JUNG J J,CAMACHO D.Social big data:Recent achievements and new challenges[J].Information Fusion,2015(8).
[8] 楊水利,梁永康.制造企業服務化轉型影響因素扎根研究[J].科技進步與對策,2016,33(8):101-105.
[9] KRUMEICH J,SCHIMMELPFENNIG J,JACOBI S.Advanced planning and control of manufacturing processes in steel industy though Big Data analytics[J].2014 IEEE International Conference on Big Data:2014.
[10] 趙剛.大數據技術與實踐指南[M].北京:電子工業出版社,2013.
[11] 王淑芬.基于大數據的制造運行監測與分析平臺研究[D].廣州:廣東工業大學,2014.
[12] 楊正益.制造物聯海量實時數據處理方法研究[D].重慶:重慶大學,2012.
[13] 郭偉.大數據及其在供應鏈中的應用.供應鏈管理[J].2015(5):200-220.
[14] 彭小圣,鄧迪元,程時杰,等.面向智能電網應用的電力大數據關鍵技術[J].中國電機工程學報,2015(2):503-511.
[15] 樓巍.面向大數據的高維數據挖掘技術研究[D].上海:上海大學,2013.
[16] Apache.HDFS Architecture.http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/Hdfs Design.html#Introduction.
[17] 蔡斌,陳湘萍.Hadoop技術內幕:深入解析Hadoop Common和HDFS架構設計與實現原理[M].北京:機械工業出版社,2013.
[18] WHITE T.Hadoop:The Definitive Guide[M].O’Reilly Media,Inc,1005 Gravenstein Highway North,Sebastopol,CA95472,2009(7).
[19] KUMAR R.Two computational paradigm for big data[EB/OL].2012,http://kdd2012.sigkdd.org/sites/images/summerschool/Ravi-Kumar.pdf.
[20] 徐飛.大數據流的實時處理研究[D].無錫:江南大學,2014.
[21] 崔星燦,禹曉輝,劉洋,等.分布式流處理技術綜述[J].計算機研究與發展,2015,52(2):318-332.
[22] Aga.J.Yahoo!S4分布式流處理引擎分析總結[EB/OL].http://www.cnblogs.com/aga-j/archive/2012/02/03/233-7151.html.2012(2).
[23] 孫柏林.“大數據”技術及其在電力行業中的應用[J].電氣時代,2013(8):18-23.
[24] 工業和信息化部電信研究院.大數據白皮書(2014年)[R].工業和信息化部電信研究院,2014(5).
[25] 唐澤圣,陳莉,鄧俊輝.三維數據場可視化[M].北京:清華大學出版社,1999:1-6.
作者信息:
李少波1,2,陳永前1
(1.貴州大學 現代制造技術教育部重點實驗室,貴州 貴陽550025;2.貴州大學 機械工程學院,貴州 貴陽550025)