業(yè)界使用的模型本質上有兩種類型:一種是研發(fā)設計階段的建模,目的是生產出與模型一致的物理產品。這時,一般是先有數字世界中的模型后有物理世界中的實體。另外一種是針對特定客觀對象的建模,目的是讓模型與客觀對象吻合。這時,往往是先有物理世界中的對象,后有數字世界的模型。本節(jié)討論的是后一種建模。這種模型是參照實際數據建立的,人們希望模型的結果與實際數據吻合。
針對特定物理對象的數據建模有兩個層次的用途:一種是模型的正向應用,用于預測或計算某個變量;一種是模型的反向應用,用于優(yōu)化和控制。前一種用途的模型不一定采用因果關系,而后一種用途的模型則要符合因果關系。
模型應用的場景
完整地理解模型的重要性,就要理解模型的局限性。我們前面曾經談到,模型都是有誤差的,這很大程度上限制了模型的應用。在維納的理論中,通過反饋來應對模型的誤差問題。傳統(tǒng)控制論的模型,往往針對線性系統(tǒng)。線性系統(tǒng)往往適合用參數變動比較小的場景下。但智能時代的模型,往往針對的是變化范圍變化較大的場景。這樣的場景,往往是非線性的。
所以,基于工業(yè)數據建模,往往面對的是大范圍和高精度的矛盾。下面我們會討論:這樣的矛盾是如何產生的,又是如何解決的。
數據建模的基礎
很多人認為,工業(yè)數據建模的原因是“原理不清楚”。事實上,工業(yè)對象都是物理對象,都符合自然科學的規(guī)律。工業(yè)對象是人造對象。人們建立物理的工業(yè)對象時,往往也都是在科學原理的指導下做成的。
有些人不明白:既然科學原理清楚了,為什么還要建立模型。工業(yè)人建立模型的原因有兩個:首先是科學模型是抽象的、工業(yè)模型是具體的。從抽象走到具體,需要給出若干參數。而這些參數并不一定容易獲得。其次,科學原理針對的都是簡單對象,工業(yè)對象卻往往是復雜的系統(tǒng),需要大量的參數。參數多的問題是:如果參數準確度不高,理論模型的精確度就會低到難以忍受的程度,無法滿足工業(yè)生產的需要
下面給出一個形象的說法:某個工業(yè)對象可以用函數描述,假設它的理論模型是。應用模型時必須依靠現實中能夠獲得的數據?,F實中,X往往是無法準確、及時獲得。這時,人們要設法在可以得到的數據中,尋找一些與X相關的變量,如Z。于是,現實的數據模型往往就變成。
某廠發(fā)現:一種材料的合格率與生產這種材料的班組有關。事實上,合格率與某個工藝參數有關,不同班組采用的工藝參數不一樣。但每個班組采用的參數不同、也沒有記錄。所以,人們看到的是合格率與班組有關。在這個例子里,工藝參數就是X,而班組就是Z。
人們經常發(fā)現:材料的性能與生產的季節(jié)相關。本質上,材料的性能與生產材料時的溫度、濕度、空氣流動的綜合情況有關。在這里,溫度、濕度、空氣流動情況是人們需要的X,而生產季節(jié)就是Z。
人們預報鋼水溫度時,采用了一個經驗做法:如果盛放鋼水的鋼包是第一次使用,則鋼水溫度降低5度。真正的原因是:鋼包第一次盛放鋼水時,鋼包壁是比較冷的,鋼水溫度降低得更快。但是,人們容易得到使用次數的參數,卻不容易得到鋼包壁溫度相關的參數。
變量的選取是非常重要的。變量的選擇不同,最終的模型就不一樣。其中,一個重要的差別是:模型的精度和適用范圍不一樣。對科學理論模型來說,模型的精度高往往意味著適用范圍大,而現實的模型則不一定。從這種意義上說,模型精度未必是是越高越好。
工業(yè)企業(yè)追求穩(wěn)定,而模型往往用來應對不穩(wěn)定的工況。工況穩(wěn)定的時候,參數波動的范圍往往較小,簡單的線性模型往往就可以奏效。復雜模型往往用于不穩(wěn)定的場合。用于不穩(wěn)定的場合時,對模型適用范圍的要求就會比較大。
有些人開發(fā)的模型精度比較高,卻不能得到生產廠的認可。背后的原因是:模型在生產穩(wěn)定的時候精度很高,在生產不穩(wěn)定的時候精度較低。由于多數時間的生產是穩(wěn)定的,模型的平均精度往往較高。但是,生產穩(wěn)定的時候,工人對模型沒有需求;工人對模型有需求的時候,往往是生產不穩(wěn)定的時候。
模型精度和適用范圍的矛盾,是建模時最常見的問題之一。
工業(yè)大數據時代的機會
大數據時代的重要機會,就是可以用簡單的方法建立好的模型。
從A地到B地時,要找到一條速度最快的路徑。理論上講,建立相關模型時需要給出許多參數,如距離、行駛速度等。而行駛速度,受到各種不確定因素的影響。在大數據的背景下,這個問題就容易解決了:看看其他人怎么走的、花了多少時間。找到合適的走法,按照他們的路子走就是了。為了提高精度,還可以根據日期、時段和道路事情情況做些修正。
事實上,工業(yè)大數據的方法,早已出現在前人的實踐中。這類方法的基本思路就是:找一個類似的做法,在此基礎上進行修訂。
鋼水冶煉前,需要給出合適的工藝參數。計算過程涉及到很多參數,不容易算對。解決這個問題的思路:先從歷史數據中找類似的成功案例。以此為基礎,根據案例爐與本爐次的參數差異進行修正。
熱軋帶鋼軋制結束后,需要確定冷卻水閥門的打開組數,以便冷卻到特定的目標溫度。在冷卻過程中,冷卻速度受鋼種、厚度、起始溫度、冷卻目標溫度、冷卻水溫度等多個因素的影響,純粹的機理模型很難準確計算。解決問題的辦法是對帶鋼進行分組,在每個分組內確定一組與冷卻速度有關的參數。在此基礎上,對具體帶鋼參數進行變換、得到對于的冷卻制度,并根據實測結果對參數進行修訂。在某些鋼鐵企業(yè),響應的分組有幾萬個。
我們注意到:上述方法其實解決了模型的應用范圍大和精度要求高之間的矛盾。外表上看,模型適合于各種產品、應用范圍很大。在這個范圍內,模型本質上可能是非線性關系。但是,通過尋找類似的案例,就自然地回避了非線性問題。而歷史的案例,本質上是實踐積累的結果。具體地看,非線性模型本質上是由若干個小模型組成的,每個模型的應用范圍很小。這樣,就可以在每一個小的范圍內設法提高模型的精度。在這個小的范圍內,參數的影響往往可以用線性模型或者廣義線性模型近似。在范圍足夠小的時候,人們就可以采用反饋調節(jié)等手段,進一步提升模型的精度。
我們曾經提到:工業(yè)對象復雜、對精度要求高的時候,知識往往來自于實踐。上述辦法本質上就是把實踐中行之有效的做法記下來,用于指導下次的實踐。從本質上講,這種辦法與PDCA持續(xù)改進的思想是一致的。但這種持續(xù)改進是由計算機自動完成的。
對從事算法研究的人來講,上面的思想其實并不新穎。所謂近鄰方法、CBR方法、模式識別、R2R等方法,基本上就是這個思路。但是,在過去數據基礎有限的條件下,這些方法不一定能用好。比如,人們可能找不到相同或者類似的案例。
在筆者看來,工業(yè)大數據的根本優(yōu)勢是數據的質量好。質量好的一個方面,就是數據分布范圍大,覆蓋了各種可能發(fā)生的情況。這就是所謂“ 樣本等于全體”。在這樣的前提下,就總能從歷史上找到類似的案例。所以,大數據的本質優(yōu)勢是數據來源全面,而不是數量多到什么程度。如果數據存儲得足夠久、場景存儲得足夠多,新問題就會越來越少,這類方法就容易走向實用了。
以設備故障診斷為例。針對單臺設備研究問題時,故障樣本就少,甚至每次都不一樣。但是,如果把成千上萬臺設備的信息收集起來,情況就不一樣了:每次出現問題,都容易在歷史數據庫中找到類似的案例。這時,人們研究的重點,往往是如何利用理論的指導,更加準確地尋找類似案例、更加準確地修正。
“戒煙最容易了:我都戒過100多次了”。
從事數據建模工作時,往往就會遇到這樣的問題:用一批數據建立數學模型,結果非常理想。但不久以后,精度卻很快降低下去、無法繼續(xù)使用。所以,許多結果很好的學術論文,在現實中卻是沒有用的。為什么會出現這樣的問題呢?
有個小朋友說:穿紅裙子的人是我的媽媽。在特定的時間、特定的地點,小朋友的話是正確的。但如果換了一個場景、換一個日子,這個判別標準可能就錯了:媽媽可能不穿紅裙子了,穿紅裙子的女士也可能有很多個。
數據建模的失效常常也是類似原因導致的:當場景變化時,模型很容易失效。要解決這樣的問題,必須綜合運用多個方面的特征。
許多人臉識別算法非常成功。有的算法在人臉上找到了一百多個特征。識別時綜合考慮這些特征,就不容易出錯了。有些罪犯過了幾十年、相貌發(fā)生了很大變化,機器仍然能識別出來。
在大數據時代,數據的完整性很好。人們有可能找到若干獨立的特征進行綜合。這樣,模型識別的準確率就大大提高了。
第四范式與科學規(guī)律發(fā)現
自然科學規(guī)律本質上也是用數學模型描述的。自然科學規(guī)律的特點是:模型精度高、適用范圍大。我們前面曾經提到,經典科學原理往往有個特點:變量的數目非常少。這背后有個重要的原因:
科學結論都是需要經過嚴格檢驗和論證的。按照科學哲學的觀點,科學理論的基本特征是可證偽性。所謂的可證偽性,就是理論上存在一種驗證辦法,如果驗證結果與理論不符,就可以證明理論是錯的。如果一個理論涉及到的因素少,就容易證偽。
復雜問題的影響因素多,不容易嚴格論證。例如,新藥的開發(fā)困難,就與此有關。在大數據時代,這類問題可能得到改變。圖靈獎得主吉姆·格雷(Jim Gray)將科學研究分為四類范式(Paradigm)即實驗歸納,模型推演,仿真模擬和數據密集型科學發(fā)現。其中,最后一種就是通過大數據發(fā)現科學知識。
理論上講,許多工業(yè)過程都可以用科學公式來描述。但現實的影響因素太多?;?、冶金等行業(yè)的一種典型的現象是:在同一個生產過程中同時存在著幾十種化學反應。每個化學反應都可以用簡單的化學反應方程來描述。但反應之間互相影響,許多參數會動態(tài)變化、無法準確確定,整體的化學反應過程就很難準確描述。
鋼鐵材料中的很多物理和化學變化是在固體中進行的、反應過程不充分、不徹底。故而導致產品質量與工藝過程密切相關。鋼鐵產品的力學性能是多種元素的含量和工藝參數綜合影響的結果。力學性能與影響因素都是可以測量的物理量,而成分和工藝可以決定性能。理論上講,存在一個科學的公式來描述性能與成分、工藝的關系。
對于這樣的情況,傳統(tǒng)的辦法很難建立準確的模型。除了問題本身復雜外,一個重要的原因就是許多干擾是不可見的。這就會對模型的驗證帶來巨大的困難。
在大數據的背景下,為解決這類困難提供了可能。一個重要的原因是:當數據量足夠大的時候,隨機干擾是可以通過平均的方法濾除的。這相當于數據的精度可以大大提高。同時,大數據還可能為人們提供較好的樣本分布,有助于復雜問題的解耦,即把復雜的、變量多的模型簡化成若干變量數目少的簡單模型。模型簡單以后,也便于科學地驗證。
模型簡化的過程,其實是一個猜測和排除的過程。這一點和傳統(tǒng)的科學研究非常類似。是一個循環(huán)往復、不斷深入的過程,需要不斷地進行定性判斷和定量的估計。在這個過程中,科學知識和數據中反映出來的現象可以共同起作用。人的經驗也是非常重要的:優(yōu)秀的專家往往“猜得準”,能夠提高研究的效率和成功率。
需要特別指出的是:這樣的研究并不能保證成功。成功的必要條件是數據本身決定的。一定數量的科學實驗和仿真研究也是必要的。
作者:郭朝暉(工學博士,教授級高工。企業(yè)研發(fā)一線工作20年;優(yōu)也科技信息公司首席科學家;東北大學、上海交大等多所院校兼職教授。國內知名智庫、走向智能研究院的發(fā)起人之一。原寶鋼研究院首席研究員)