在每屆世界杯足球賽開幕之際,都會(huì)有各路大咖為大力神杯的最終歸屬“算上一卦”,其中也少不了科學(xué)家手中的數(shù)學(xué)模型?!耙磺€(gè)觀眾中就有一千個(gè)哈姆萊特”,十個(gè)不同模型就可能預(yù)測出十個(gè)不同冠軍,像巴西隊(duì),阿根廷隊(duì),法國隊(duì)都是被預(yù)測的奪冠熱門。
對(duì)于即將到來的2022年卡塔爾世界杯,英國一位流行病學(xué)統(tǒng)計(jì)研究者M(jìn)atthew Penn卻更看好比利時(shí)隊(duì),要知道比利時(shí)隊(duì)在世界杯歷史上還從來沒進(jìn)過決賽。但這哥們絕不是在“瞎說”,一來人家有自己基于數(shù)據(jù)的概率模型,二來這個(gè)模型曾經(jīng)在2020年歐洲杯的預(yù)測中大放異彩,當(dāng)時(shí)準(zhǔn)確地預(yù)測了意大利和英格蘭會(huì)分別是冠亞軍,并且預(yù)測對(duì)了八強(qiáng)球隊(duì)中的六個(gè)。
在11月15日,Nature雜志慕名采訪了Matthew Penn這位預(yù)測大神,并公布了他使用同一模型預(yù)測的本屆世界杯結(jié)果,各隊(duì)奪冠的可能性大小如下:
那么這些歐洲杯和世界杯的預(yù)測結(jié)果是怎么獲得的呢?簡單說是來自于每場比賽的擲骰子,卻又不是簡單的擲骰子,而是一種泊松概率分布。
我們投擲一枚普通骰子,會(huì)得到1點(diǎn)到6點(diǎn)中的任意一個(gè),并且六種結(jié)果的可能性是相等的,稱為均勻概率分布。而對(duì)于泊松概率分布,我們考慮這樣一種情況:假設(shè)街邊有一家生意并不怎么好的小店,每天經(jīng)營10個(gè)小時(shí),平均每天可以來30個(gè)顧客,那么平均每小時(shí)就只有3個(gè)顧客,還假設(shè)顧客都是隨機(jī)選時(shí)間來的,并沒有“客流高峰”,如果任意挑選其中營業(yè)的一個(gè)小時(shí),來的顧客人數(shù)一定是3個(gè)嗎?顯然也不一定,這次碰巧可能一個(gè)人也沒來,下次碰巧可能一下子來了十幾個(gè)人。而法國數(shù)學(xué)家泊松給出了下面這一公式:
λ=3表示了平均值,P則表示了這一小時(shí)的時(shí)間段來了k個(gè)人的概率大小,e是自然常數(shù)。在泊松眼中,這家小店一小時(shí)內(nèi)恰好來了3位顧客(平均水平)可能性是22.4%,而一個(gè)人沒來的概率是4.98%,來了很多人的概率同樣存在,但可能性很小,比如來了10個(gè)人的概率是0.08%,其它人數(shù)的概率也可以一一算出。
在現(xiàn)實(shí)中,泊松概率分布其實(shí)無處不在,很多真實(shí)數(shù)據(jù)都和這一分布驚人的相似。其中包括了核物質(zhì)每秒放射性衰變的次數(shù),地震等自然災(zāi)害發(fā)生的次數(shù),公共場所排隊(duì)的人數(shù),機(jī)器出現(xiàn)的故障數(shù),每年飛機(jī)墜毀次數(shù),某地區(qū)患病的人數(shù),城市各區(qū)域犯罪案件發(fā)生數(shù)量,甚至是普法戰(zhàn)爭期間普魯士士兵被馬踢死的人數(shù)等等。
而在Matthew Penn的模型中,泊松概率分布用來表示了每場足球比賽中某一方的進(jìn)球個(gè)數(shù)。一場比賽的勝負(fù)和比分自然同時(shí)取決于雙方的實(shí)力和運(yùn)氣,確定性之中又充滿了不確定性。
為了衡量各球隊(duì)實(shí)力,模型中給每一支球隊(duì)分別設(shè)置了“攻擊力”和“防守脆弱性”指數(shù),前者數(shù)值越高越容易進(jìn)球,后者數(shù)值越高表示越容易丟球,防守力越弱。對(duì)此,各種網(wǎng)游桌游的玩家一定不會(huì)陌生,而在更遙遠(yuǎn)的時(shí)代,方便面里贈(zèng)送的《水滸傳》英雄卡上也都標(biāo)記了每位好漢的攻擊力和防御力。很顯然,一等球隊(duì)攻擊力強(qiáng),防守脆弱性低,二等球隊(duì)攻擊力弱,防守脆弱性低,或者反之,最差的一類球隊(duì)攻擊力弱,防守脆弱性高。
不過辦法總比困難多,就像從混亂的進(jìn)球數(shù)可能性中尋找到冠軍球隊(duì)的蛛絲馬跡一樣,面對(duì)神出鬼沒的泊松概率分布噪聲,研究者通過深度學(xué)習(xí)人工智能算法可以將拍到的照片中噪聲完美去除,做到完好無缺的修復(fù)(圖右)。無論預(yù)測比賽比分,還是去除圖片噪聲,都離不開大數(shù)據(jù)作為參考,隨機(jī)性的迷霧被異曲同工地層層撥開。
作者:焦述銘(鵬城實(shí)驗(yàn)室助理研究員,香港城市大學(xué)電子工程博士,從事全息三維顯示算法,單像素成像,光學(xué)計(jì)算,圖像處理,信息安全,機(jī)器學(xué)習(xí)等研究)