杜斌
近年來,大數據技術在人類日常生活及社會管理等領域的應用取得了巨大的成功。比如,流感預測、Alpha Go、廣告精準推送等不斷沖擊著人們的視野,也引起了包括鋼鐵業在內的工業界的高度關注。不少鋼鐵企業紛紛策劃或開展相關的研究與投入,建立各種規模、不同類型的大數據系統,若干應用案例也迅速涌現出來。
就目前來說,我國的鋼鐵業已經具有較高的自動化和信息化水平,各類數據系統也是高效率制造和管理的基礎。尤其是近20年來,我國鋼鐵業技術人員利用數據建立的模型,通過編制軟件系統,參與到制造的控制和決策各個方面,取得不少成果。與我國其他制造業橫向比較,鋼鐵業在數據、算法、系統研制等相關技術領域均走在前列。目前,新的大數據技術浪潮拓寬了數據的應用范疇和人們的視野,鋼鐵人應以更大的興趣投入其中。
需要說明一下,本文觀點主要是針對已建成的鋼鐵產線而言。
鋼鐵業大數據有哪些特點?
●客觀地說,社會大數據與工業大數據存在較多差異,工業大數據可能無法像社會大數據那樣快速帶來巨大的成功。而鋼鐵業永恒的話題依然是成本、質量和效率,數據只是手段。
工業大數據與社會大數據的異同
先進鋼鐵企業數據目前已經分布在廣泛建立的多級計算機管理與控制系統中。這些數據按照生產和管理高效率的原則,具有分層布置和科學有限聯通的特征。由于歷史、成本和技術發展等原因,20多年來建立的鋼鐵計算機及數據存儲系統大多為滿足基本需要而設計。
工業大數據與社會大數據基本相似之處有兩點:
一是數據類型基本相似。鋼鐵業數據以數值型為主。近年隨著圖像處理等技術的逐步應用,鋼鐵業在數據類型方面也不斷地豐富,有了語音和動態視頻數據,可以認為鋼鐵業數據類型與社會大數據類型基本相似,只是目前數值型數據仍明顯占大多數。
二是數據建模的理論和方法基本相同。一般應用型研究的人們主要還是用常規數理統計、回歸分析、狀態估計等傳統統計學方法,近年神經網絡、現代數學擬合、線性規劃等人工智能方法較為常見,不同問題選擇不同的方法,與對象的特征相關。
不同之處有以下幾個方面:
第一,對精度的要求不同。從一些社會學成功的大數據應用來看,如廣告推送、行為預測等方面精度可以低一些,并不會因此產生重大的副作用。工業大數據就不同,其非常強調精度,如果工業大數據應用的精度低于現有水平,或者不能優于現有水平,就難以被企業接受。這樣的例子很多。以過程控制模型來看,如果引入工業大數據建模參與過程控制,就需要新數據模型的精度超過現有的以冶金機理為主建立的控制模型才行。現有模型在局部也往往利用在線數據校正或者補償(所謂自適應控制),所以用數據模型并不能輕而易舉代替原有機理模型,除非是在機理模型難以建立的地方或者范疇。
第二,需求來源不同。從研究的出發點看,社會學領域的研究可以根據已有數據的情況來選擇問題,只要取得有意義的結果就會帶來價值;如果數據欠缺,社會學領域的研究就可以繞道而行。而工業問題則始終是圍繞成本、效率、質量這些不變的問題進行,數據條件不足不能成為回避的理由。人們往往選擇任何可行的方法來攻克難題,并不局限于數據方法,比如機理分析、測量校正、操作調整等方法。這個所謂研究需求來源的不同使得工業界對數據的依賴程度低于社會領域。
第三,數據的完整性不同。
一是數據本身的完整性不同。在保證數據本身的完整性方面,工業領域數據的收集成本高于社會領域,這是由兩者的現實狀況和數據收集方法等的不同所致。社會領域數據收集相對簡便,比如智能手機的大面積普及,廠商可以利用手機終端來完成數據的收集,還有很多數據由政府免費提供。工業領域則要復雜得多,尤其是已有產線的數據收集就是一個極其復雜且耗費巨大的事情。比如,要把一臺產線上已有特殊測量儀表的數據進行某種特定的收集,可能就要請原來的儀表制造商開放通信協議和接口,這并不容易。另外,工業設備通信協議和網絡傳送能力均已固化,要針對數據建模需要提出新的要求,實現起來需要時間和成本。這些都是目前工業大數據應用的具體困難,雖然不是不可克服,但要付出很大的努力和必要的成本,這些付出與所得要成比例才能持續。
二是解的完整性不同。在解的完整性方面,工業領域的要求高于社會領域。工業過程的控制必須是對要控制的方方面面均進行控制,比如煉鋼就要對整個過程和所有的加料或操作進行控制指導,缺一不可;而社會領域則沒有這方面的要求,可以只對一種或若干種商品廣告推送進行指導。
第四,初值不同。對于一個工業過程的控制或者決策問題,有時候不能等到數據存在了再去解決。比如,控制總是在鋼鐵產線建立之初就要起作用,這就是所謂的數據初值問題,也就是工業界往往必須在數據產生之前就要有技術手段為制造提供控制與決策。
第五,風險不同。鋼鐵業大數據應用風險一般會比社會領域大,有些社會大數據應用比如廣告推送、流感預測不會有難以承受的風險,而工業大數據模型可能使廢品率上升,甚至危及正常生產和企業生存。
數據模型與機理模型存在較大差異
多數工業大數據應用都是通過數據建模來實施的。我們首先對比一下機理模型與數據模型的差異。機理模型是指主要的模型結構和參數來源于人們對建模對象客觀規律的理解。
數據模型的參數解釋性高于機理模型。通常機理模型來源于人類對對象的理解,其變量具有清晰的含義,在模型的自變量與因變量之間,專家可以給出物理或化學的解釋。這種解釋對于工程師對模型的理解十分重要,可以根據對相關模型變量的理解直接修改對應的模型參數。一句話,沒有正確的理解就難以有良好的應用。反之,數據模型特別是一些智能模型,其參數因其復雜的數據擬合原理而變得失去了理化意義,工程師完全不能直觀地或根據經驗進行調整。
數據模型對對象變化的可適應性較弱。工業對象的變化總是難以避免,比如原材料性能、燃料熱值、新型處理設備或部件的增加、客戶對產品的新要求、產線新增或減少,等等。對象變化通常需要調整模型參數來適應,正因為數據模型的參數解釋性差,必然導致調整的難度增加,甚至無法調整。尤其是增加原本不存在的新的添加物時,數據模型幾乎無法調整,嚴重時會使得數據模型失效。
對鋼鐵業大數據應用的有關建議
●既要積極又要理性地開展鋼鐵業大數據技術的開發與應用,而理性主要反映在題目選擇、技術方法以及循序漸進上。
工業大數據建模的技術方法
盡管目前大數據很熱,但考慮到工業本身的特征,工業產品大多數是在人類設計的產線上制造,人們對制造過程積累了大量的知識和經驗,在利用工業大數據建模時依然要緊扣問題,既充分利用大數據所含有的對象特征信息,也要充分利用數據之外的機理知識和專家經驗,只有綜合一切所能夠利用的信息建立的模型才能達到最好的效果。通常認為:模型=機理+數據+經驗,就是為了追求盡可能高的模型精度。
從工業建模的數據成本和效率角度出發,筆者認為,如果一個問題利用機理方法可以解決,就不一定要靠數據;如果用較少的數據可以解決就不必非要追求大數據。也就是說:機理>小數據>大數據。
也許有觀點認為,隨著深度學習等新技術的發展,上述問題都將不是障礙。這一點在外延明確的問題或領域也許可以較快看到(工業界這樣的例子并不多)。對于大多數外延變化的鋼鐵業問題,我們暫時還看不到上述兩個原則有被否認的趨勢。
鋼鐵業大數據應用可從九大領域優先切入
所有這些技術比較或者建議并非是對工業大數據應用前景和價值的否定,而是針對工業問題給出合適的技術方法和路徑。盡管與社會領域大數據應用存在諸多差異,但仍然可以選擇一些領域開展工業大數據的研究和應用。
筆者首先建議在傳統方法難以滿足要求的領域或者利于發揮數據長處的領域優先開展。這些領域有:①鋼鐵全產線產品質量分析與監管;②專用設備診斷;③缺陷圖像數據處理與分類;④基于大數據的能源整體調度優化;⑤基于制造大數據的智能采購;⑥基于市場與制造大數據的預測式制造系統;⑦基于大數據的銷售決策支持;⑧成本大數據應用;⑨工序間數據建模與決策。
其中,①②④是已經長期利用數據進行工作的領域,是被證實數據應用可行且沒有更好的方法可用的領域;③是把圖像問題轉化為數據后可以稱之為大數據應用的領域,其本質依然是圖像處理,其方法也是圍繞圖像處理技術而進行,只是大數據建模技術被認為是有前景的新方法之一;⑤~⑧是筆者較為推薦的所謂“薄而寬”的數據應用領域,寶鋼數年來的實踐證明了其價值和技術經濟可行性,而制造環節的智能化很多是智能優化技術與大數據的結合,前者是難點與核心,故未列入;⑨則是由于大型鋼廠過程計算機建設的分工設計特征決定了工序間信息的利用是一個先天的薄弱環節,傳統方法是通過一系列工藝設定值來維系上下游工序間的信息銜接與傳遞,所以在工序間利用實際數據分析和建??梢云鸬窖a充和完善的作用。
以上列舉的領域未必全面。其中②要注意的是,鋼鐵業工程師不要去做單體專用設備(如電機、泵閥等)的基于數據的設備診斷,而要把注意力放到工序設備的綜合診斷上,因為前者很快會被專業廠商完成,而工序設備則是與鋼鐵業本身的制造、產品、工藝都有關的設備問題。
另外,說到大數據應用,不能不提到國際上一些把材料科學與鋼鐵制造相結合的數據應用研究,可算是智能化浪潮的一部分。這類研究更應當首先進行實驗室探索,而不是立刻考慮工業界的計算機軟硬件的安排。寶鋼研究院就此成立了跨學科的年輕科研人員小組,按預研項目安排,這就是一個符合實際的做法。
鋼鐵業大數據應用應注意三個方面的問題
從企業的角度看,在開展大數據應用時應該注意什么呢?
關于大數據存放的策略,通常沒有人反對把數據逐漸集中這一方式,事實上很多企業已經開始這方面的工作。為了全面應用工業大數據技術,人們期待把對象的所有數據都集中到同一個平臺上,以便于做各種細致的研究。是否集中、何時集中所有的數據,目前對于新產線已不是技術問題,而是成本問題。數據集中的成本不僅僅是儲存成本,對現有的鋼鐵產線而言,由數據收集帶來的對原有儀表等供貨商的依賴、對網絡和通信設施的改造也許會帶來更大的成本和麻煩。
一是建議首先開展“寬而薄”數據的應用研發。通常,制造管理相關(如MES/ERP)的數據屬于“寬而薄”的數據,而生產控制數據(如儀表數據、L1控制系統等)往往是“窄而深”的數據。筆者建議工業大數據應用首先開展“寬而薄”數據的應用研發,一方面這里的數據看起來涉及面很寬,但實際上數據量并不大,存儲或者“上云”相對容易;另一方面先進鋼廠的數據相對比較完整。根據寶鋼的實踐,這里面可以產生很多數據效益。當然,方法不一定僅僅是人們常見的數據建模,更多的是智能優化等新技術的應用。寶鋼在庫存優化、產線智能排程、大宗原材料采購決策、戰略客戶銷售協同等方面都取得了十分可觀的價值,這些價值很多還都是在大數據云計算概念大規模出現前就開始產生了。至于“窄而深”的數據應用,對于控制界來說不是新技術,國內擁有較好的技術和人才基礎,優先的方法是沿著過去已有的技術積累開展研發,在取得明確結果或者技術認識之后,再考慮數據集中,這是更符合實際和低成本的做法。
二是試點研究既是大數據的便利之處,也是必要途徑。從筆者比較熟悉的成功數據應用技術成果看,大多數都經歷過多次的實驗,成功后往往對計算機系統提出了一定的新要求,很難想象在沒有試驗和一定研究的基礎上就把很多數據收集起來,然后寄希望于依靠數據建?;蛘邫C器學習帶來各種意想不到的成功。這既缺乏科學性,也不是經濟的路徑。通常而言,缺乏技術驗證的東西很難得到工業界的接受。鋼鐵業已有的數據使我們可以通過簡單的方法把有關的數據收集到離線的計算機中,并進行各類分析研究,找到模型,在得出效果(或者精度)和明確價值之后,再開始在線投資,會使風險和成本都小很多。這就是筆者所說的試點方法。
三是加強人才培訓,分階段分層次配置數據處理工具。鋼鐵業大多數員工并非數據學科出身,要從事工業大數據應用工作還需要補課。即使寶鋼這樣人才實力雄厚的企業,能夠進行復雜數據應用的工程師也很少。熟悉對象且有一定數據基礎的人方能較好地與專業數據工程師合作。因此,鋼鐵業大面積的大數據應用不僅是技術問題,也需要人才隊伍建設的配合。
鋼鐵企業選擇什么數據工具呢?筆者的建議是:考慮到企業工程師通常還不具備使用高端數據處理技術的能力,所以不要急于引進那些功能完整(指數據處理與建模、圖形化等高級功能)的國外軟件。這些軟件在多用戶的情況下價格十分昂貴。企業應該先給工程師提供簡單的數據處理工具,然后再根據情況購買少數高級別工具給高級別人才用。筆者所在的小組就在為寶鋼股份開發迷你型的鋼鐵業專用數據處理工具,不僅為企業節約較多的開支,同時又為后續的在線應用打下了扎實基礎。
綜上所述,雖然鋼鐵業大數據應用是技術問題,但大數據應用多數可以用傳統方法完成,其載體是大量的計算機軟硬件和通信網絡等,所以某種意義上也是投資問題。在新技術快速發展、大數據技術日新月異的當下,筆者提出這些技術比較和差異分析,并非對大數據技術的否定,而是在目前“手機媒體”和“有償培訓”的影響力遠大于專業人士的情況下,就鋼鐵業大數據應用提出自己的一些看法供大家參考。就筆者所知,目前鋼鐵業大數據新應用的項目不少是非鋼鐵業公司在負責實施,鋼鐵業內部的若干大數據系統項目有部分是由從未有過數據建模經歷的工程師在主導,這里面的成本風險是可以想象的。另外,筆者親歷過一些缺乏行業基礎的信息公司為技術基礎薄弱的民營鋼鐵企業給出的大數據或智能化方案,存在明顯的問題和風險,所以希望這些觀點能夠作為目前主流聲音的補充。
筆者的核心建議是既要積極又要理性地開展鋼鐵業大數據技術的研發與應用,而理性主要反映在題目選擇、技術方法以及循序漸進上。在大數據熱的當下,這樣的提法只能算一家之言,僅供同行們參考。 來源:中國冶金報
網上經營許可證號:京ICP備18006193號-1
copyright?2005-2022 www.ayzwhls.com all right reserved 技術支持:杭州高達軟件系統股份有限公司
服務熱線:010-59231580