性吧杏吧,手机色情直播破解版,杏杏吧在线

工業(yè)大數(shù)據(jù)建模的理論思考

2021/4/13 20:55:47 人評(píng)論 次瀏覽 分類(lèi):技術(shù)方案  文章地址:http://prosperiteweb.com/tech/3699.html

有個(gè)問(wèn)題,我一直被問(wèn)了20年:你建的是機(jī)理模型還是數(shù)據(jù)模型?其實(shí),早在20年前,我就給出了答案:工業(yè)現(xiàn)場(chǎng)往往沒(méi)有純粹的機(jī)理模型、也沒(méi)有純粹的數(shù)據(jù)模型,而是兩者的融合;差別只是比重的不同。

我發(fā)現(xiàn)經(jīng)常有人過(guò)度強(qiáng)調(diào)數(shù)據(jù)算法。在工業(yè)大數(shù)據(jù)大賽結(jié)束后的發(fā)言中,我強(qiáng)調(diào)說(shuō):不要急著搞算法、不要急著搞算法、不要急著搞算法。意思是:先去研究一下業(yè)務(wù)相關(guān)的知識(shí)。


今天突然意識(shí)到,這個(gè)說(shuō)法或許需要深化:算法和機(jī)理的側(cè)重點(diǎn),隨著項(xiàng)目、要求和進(jìn)度的變化而變化。


在許多公開(kāi)的文章或報(bào)道中,作者往往強(qiáng)調(diào)算法的重要性。我過(guò)去總是對(duì)這種說(shuō)法嗤之以鼻。但平心而論,也有部分項(xiàng)目是靠著算法贏(yíng)得成功的。但這種做法存在兩種問(wèn)題:1、過(guò)度依靠算法的模型往往可靠度低,不能用在可靠度要求高的場(chǎng)景。2、這種成功比較依賴(lài)于運(yùn)氣。形象地說(shuō),在工業(yè)領(lǐng)域,單純依靠算法成功,就像在山里撿了一塊狗頭金,可遇不可求。


所以,我現(xiàn)在的觀(guān)點(diǎn)是:強(qiáng)烈依靠算法的建模方法也可能成功,但概率低、不確定性強(qiáng),往往只能做要求簡(jiǎn)單的事情。所以,如果用戶(hù)要求不高,不妨先找?guī)讉€(gè)算法試試。但是,隨著對(duì)模型可靠度要求的提升、建模工作必須深化,機(jī)理介入的深度會(huì)逐步加深。這就好比要從靠運(yùn)氣“撿”金子,發(fā)展到挖礦、乃至用現(xiàn)代技術(shù)冶煉黃金。


理論深入的方向,似乎可以沿著“降低不確定性”的方向發(fā)展。


我有個(gè)經(jīng)驗(yàn):數(shù)據(jù)建模師,數(shù)據(jù)基礎(chǔ)非常重要。如果數(shù)據(jù)基礎(chǔ)不好,再好的算法都沒(méi)有用處。這就好比,在沒(méi)有金子的砂子里,再先進(jìn)的冶煉方法都沒(méi)用。


而現(xiàn)在很多人的做法是:先用算法試試看;如果不理想就更換算法。這其實(shí)是用算法本身測(cè)試數(shù)據(jù)基礎(chǔ)。這種做法的問(wèn)題是:遇到困難時(shí),人們往往不甘心失敗,可能會(huì)在算法上花費(fèi)大量的無(wú)用功。所以,需要研究的一個(gè)理論問(wèn)題是:如何事先分析判斷數(shù)據(jù)基礎(chǔ)能否滿(mǎn)足分析要求。如果條件不理解,可以盡快放棄或者改變目標(biāo),避免時(shí)間浪費(fèi)。這是典型的數(shù)學(xué)思維:先證明解的存在性,再設(shè)法求解。


在此基礎(chǔ)上,理論的發(fā)展方向應(yīng)該是提高模型的可靠性,而不一定是精度。我認(rèn)為:數(shù)據(jù)質(zhì)量不好時(shí),模型精度和可靠性并不等價(jià)。在多數(shù)情況下,提高模型精度容易,提高可靠性難。如果模型精度高而可靠性低,往往是今天的模型在明天就不能用了。所以,單純追求精度,往往不利于實(shí)際應(yīng)用。


在分析深化的過(guò)程中,要做兩件事:數(shù)據(jù)理解和業(yè)務(wù)理解。這個(gè)過(guò)程,就像英語(yǔ)水平不高的人,去讀一本翻譯不好的英文版《紅樓夢(mèng)》:需要花精力把英語(yǔ)的意思搞清楚,又需要把通過(guò)英文去把握人的內(nèi)心世界。其中,工業(yè)現(xiàn)場(chǎng)的數(shù)據(jù)總是存在各種問(wèn)題,這就像英文翻譯者的水平也不高。


當(dāng)人們通過(guò)算法來(lái)理解數(shù)據(jù),往往更需要算法知識(shí);通過(guò)算法理解業(yè)務(wù)時(shí),建模往往需要更多的業(yè)務(wù)知識(shí)。兩種知識(shí)必須融合在一起,才能得到好的分析結(jié)果。這就好比,我們必須通過(guò)英文來(lái)理解中國(guó)人賈寶玉,而我們又用對(duì)中國(guó)文化的理解去分析判斷英文的含義。


當(dāng)業(yè)務(wù)對(duì)模型的可靠度要求越高,這個(gè)過(guò)程越是漫長(zhǎng)、對(duì)業(yè)務(wù)知識(shí)的要求也就越高。

相關(guān)閱讀
淺談遺傳算法的PID調(diào)節(jié)器參數(shù)整定
如何解決簡(jiǎn)單算法好用卻不容易用好的矛盾

共有訪(fǎng)客發(fā)表了評(píng)論 網(wǎng)友評(píng)論

  客戶(hù)姓名:
郵箱或QQ:
驗(yàn)證碼: 看不清楚?