我喜歡從機(jī)會(huì)的角度,認(rèn)識(shí)工業(yè)大數(shù)據(jù)。工業(yè)大數(shù)據(jù)的一個(gè)重要機(jī)會(huì),是幫助人們更有效地獲取工業(yè)知識(shí)。人們能夠從數(shù)據(jù)中獲取的知識(shí),與數(shù)據(jù)的質(zhì)量和完整性有著極大的關(guān)系。過(guò)去,受經(jīng)濟(jì)因素的制約,人們采集、存儲(chǔ)、傳輸數(shù)據(jù)的數(shù)量是有限的,往往只能短期記錄部分重要的數(shù)據(jù),數(shù)據(jù)的完整性就無(wú)法得到保障,從而影響知識(shí)的獲取。數(shù)據(jù)量小的時(shí)候就往往不能保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)規(guī)模變大后,就有條件提升數(shù)據(jù)的質(zhì)量,從而發(fā)揮數(shù)據(jù)的潛力。從這種意義上說(shuō),工業(yè)大數(shù)據(jù)的時(shí)代,本質(zhì)上是數(shù)據(jù)質(zhì)量高的時(shí)代。
我的師傅、寶鋼老專(zhuān)家王洪水先生很早就重視數(shù)據(jù)質(zhì)量。他在主持開(kāi)發(fā)寶鋼信息系統(tǒng)時(shí)提出一種形象的說(shuō)法:要像錄像一樣把數(shù)據(jù)記錄下來(lái),不能讓有用的信息丟失掉。
所謂“像錄像一樣”,就是對(duì)“可追溯”的形象描述。當(dāng)質(zhì)量、設(shè)備、安全、環(huán)保出現(xiàn)問(wèn)題時(shí),可以通過(guò)追溯生產(chǎn)的過(guò)程,找到問(wèn)題的原因。通過(guò)追溯,人們也可以分析質(zhì)量、效率、成本方面的差異,從而更好地優(yōu)化生產(chǎn)過(guò)程。通過(guò)追溯,可以科學(xué)、準(zhǔn)確地評(píng)價(jià)供貨商、部門(mén)和員工,從而實(shí)現(xiàn)更加科學(xué)的管理。事實(shí)上,“可追溯”是現(xiàn)代工業(yè)企業(yè)質(zhì)量管理最基本的要求之一。
在某些落后的企業(yè),為了滿(mǎn)足可追溯的貫標(biāo)要求,讓工人手工記錄相關(guān)的數(shù)據(jù)。手工記錄的數(shù)據(jù)不僅數(shù)量有限、數(shù)據(jù)質(zhì)量也差,還容易造假,工作的價(jià)值就大大地打了折扣。隨著計(jì)算機(jī)的廣泛應(yīng)用,先進(jìn)企業(yè)的數(shù)據(jù)追溯可以讓機(jī)器來(lái)完成,就可以避免手工記錄的各種問(wèn)題。寶鋼在40年前提出“數(shù)據(jù)不落地”,就是這個(gè)道理。如果數(shù)據(jù)記錄在機(jī)器中,追溯過(guò)程可以非常方便,可以讓機(jī)器幫助分析數(shù)據(jù)。
數(shù)據(jù)分析工作就像探案推理,對(duì)數(shù)據(jù)質(zhì)量的要求很高。需要從蛛絲馬跡中找到問(wèn)題的根源,并盡量避免被數(shù)據(jù)中的假象誤導(dǎo)。但是,受經(jīng)濟(jì)和技術(shù)條件的約束,過(guò)去的數(shù)據(jù)記錄往往不完整,數(shù)據(jù)記錄頻度低、存儲(chǔ)周期短,數(shù)據(jù)質(zhì)量也不理想。筆者在實(shí)踐過(guò)程中發(fā)現(xiàn)了一些問(wèn)題。這些問(wèn)題的本質(zhì),還是數(shù)據(jù)質(zhì)量不理想。下面就是一些常見(jiàn)的問(wèn)題,會(huì)給數(shù)據(jù)分析過(guò)程帶來(lái)很多的麻煩:
1、數(shù)據(jù)的誤差問(wèn)題
工廠里的許多同志會(huì)強(qiáng)調(diào)車(chē)間儀表的測(cè)量精度高。但是,儀表測(cè)量精度高并不意味著誤差可以忽略不計(jì)。如果數(shù)據(jù)來(lái)自某個(gè)固定的工作點(diǎn)附近,數(shù)據(jù)采集誤差可能是數(shù)據(jù)波動(dòng)的重要甚至是主要原因。這時(shí),數(shù)據(jù)的信噪比會(huì)非常低。另外,由于系統(tǒng)性的干擾,傳感器測(cè)量的結(jié)果可能與實(shí)際值存在某種偏差,這些偏差還會(huì)隨著時(shí)間和場(chǎng)景變化。比如,用紅外方式測(cè)量溫度時(shí),需要事先設(shè)定對(duì)象的黑度系數(shù)。但測(cè)量對(duì)象發(fā)生變化時(shí),設(shè)定的黑度系數(shù)未必會(huì)同步變化。這時(shí),測(cè)量值的變化并不意味著真實(shí)溫度的變化。
2、數(shù)據(jù)的代表性問(wèn)題
數(shù)據(jù)往往代表對(duì)象或過(guò)程的屬性。但是,對(duì)象的屬性可能不均一、過(guò)程的屬性可能不唯一。比如,測(cè)量鋼水成分時(shí),取樣位置不同、測(cè)量結(jié)果就不一樣;再如,測(cè)量設(shè)備內(nèi)部的溫度時(shí),不同位置的溫度可能不一樣。但是,人們只能在某個(gè)位置進(jìn)行測(cè)量。這樣,就會(huì)有測(cè)量結(jié)果的代表性問(wèn)題:測(cè)量結(jié)果的合格并不意味著全面的合格、測(cè)量結(jié)果的穩(wěn)定并不意味著真正的穩(wěn)定。
3、數(shù)據(jù)的內(nèi)涵問(wèn)題
測(cè)量過(guò)程是數(shù)據(jù)的“生產(chǎn)”過(guò)程。測(cè)量過(guò)程要規(guī)范、合理,才能得到有用的測(cè)量結(jié)果。測(cè)量過(guò)程和方法不規(guī)范,會(huì)帶來(lái)錯(cuò)誤的信息。計(jì)算機(jī)中的許多數(shù)據(jù),是經(jīng)過(guò)處理過(guò)的。有些數(shù)據(jù),是經(jīng)過(guò)智能傳感器傳遞過(guò)來(lái)的。在這些場(chǎng)景下,數(shù)據(jù)的含義可能會(huì)產(chǎn)生歧義和混亂。比如,在不同的場(chǎng)景下,數(shù)據(jù)代表不同的含義;再如,某個(gè)場(chǎng)景下,溫度=400意味著溫度測(cè)量失效或者高于400度。實(shí)踐表明:人們分析問(wèn)題時(shí)遇到的很多深層次的困難,是測(cè)量的規(guī)范性不好引發(fā)。數(shù)據(jù)分析師要經(jīng)常提醒自己:數(shù)據(jù)是測(cè)量的結(jié)果,不要想當(dāng)然地認(rèn)為數(shù)據(jù)就是真實(shí)的。
4、數(shù)據(jù)對(duì)應(yīng)差錯(cuò)
數(shù)據(jù)一定是某個(gè)對(duì)象的屬性。如果屬性和對(duì)象對(duì)應(yīng)錯(cuò)誤,就會(huì)產(chǎn)生對(duì)應(yīng)問(wèn)題。現(xiàn)實(shí)中,有兩種典型的問(wèn)題:一種是空間的對(duì)應(yīng),一種是時(shí)間的對(duì)應(yīng)。空間對(duì)應(yīng)問(wèn)題往往發(fā)生在取樣測(cè)試的場(chǎng)景。以鋼鐵行業(yè)為例,測(cè)量材料性能時(shí),需要從一個(gè)很小的位置上取樣的。一卷鋼的生產(chǎn)工藝參數(shù)是不斷變化的,很難準(zhǔn)確地對(duì)應(yīng)到取樣點(diǎn)。時(shí)間對(duì)應(yīng)問(wèn)題往往發(fā)生在不同的設(shè)備之間。由于不同的設(shè)備可能采用不同的時(shí)鐘,時(shí)鐘的誤差讓人難以準(zhǔn)確判斷先后關(guān)系。
5、數(shù)據(jù)的頻度問(wèn)題
有些質(zhì)量問(wèn)題的產(chǎn)生,是秒級(jí)、毫秒級(jí)的事件引發(fā)的;分析設(shè)備問(wèn)題時(shí),也需要非常高頻度的數(shù)據(jù)。分析問(wèn)題時(shí),經(jīng)常會(huì)發(fā)現(xiàn)數(shù)據(jù)的采樣頻度不夠。而且,數(shù)據(jù)的采集頻度不等于傳送、存儲(chǔ)的頻度。有時(shí)候,采樣數(shù)據(jù)是批量傳送的,而傳送的間隔比采集間隔要長(zhǎng)得多。這也會(huì)導(dǎo)致很多問(wèn)題。
6、數(shù)據(jù)的存在性問(wèn)題
人們?cè)谶M(jìn)行數(shù)據(jù)分析時(shí),經(jīng)常發(fā)現(xiàn)某個(gè)重要的數(shù)據(jù)沒(méi)有測(cè)量或者根本不可信。這種現(xiàn)象非常普遍。這會(huì)導(dǎo)致許多分析工作無(wú)法進(jìn)行下去。
工業(yè)大數(shù)據(jù)時(shí)代數(shù)據(jù)的可追溯性
以上這些問(wèn)題,有些是在數(shù)據(jù)采集、傳輸、存儲(chǔ)成本高昂的背景下產(chǎn)生的。有些則與數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)有關(guān)。在工業(yè)大數(shù)據(jù)時(shí)代,外部的硬件條件具備了,但需要有關(guān)人員對(duì)數(shù)據(jù)采集和管理進(jìn)行更加深入的思考。筆者認(rèn)為,在工業(yè)大數(shù)據(jù)時(shí)代,理想的“可追溯性”需要滿(mǎn)足以下四點(diǎn)要求:
1、空間的一致性。不能用產(chǎn)品A的生產(chǎn)工藝對(duì)應(yīng)產(chǎn)品B的質(zhì)量,導(dǎo)致因果錯(cuò)亂。
2、時(shí)鐘的一致性。數(shù)據(jù)源必須有統(tǒng)一的時(shí)鐘。這對(duì)分析因果的重要性在于:“原因”總是會(huì)發(fā)生在“結(jié)果”的前面。
3、采樣頻度合理性。采樣的頻度需要與原因或結(jié)果發(fā)生的頻度匹配,保證不漏采。例如,如果事件發(fā)生的頻度是秒級(jí)的,采樣的頻度不能是分鐘、小時(shí)級(jí)的。
4、數(shù)據(jù)質(zhì)量的監(jiān)控。生產(chǎn)過(guò)程的很多疑難問(wèn)題,往往是由數(shù)據(jù)采集本身的問(wèn)題導(dǎo)致的。對(duì)于重要的數(shù)據(jù),要有辦法判斷數(shù)據(jù)本身是不是準(zhǔn)確的、數(shù)據(jù)采集過(guò)程本身有沒(méi)有問(wèn)題。
作者:郭朝暉(工學(xué)博士,教授級(jí)高工。企業(yè)研發(fā)一線(xiàn)工作20年;優(yōu)也科技信息公司首席科學(xué)家;東北大學(xué)、上海交大等多所院校兼職教授。國(guó)內(nèi)知名智庫(kù)、走向智能研究院的發(fā)起人之一。原寶鋼研究院首席研究員)