在每届世界杯足球赛开幕之际,都会有各路大咖为大力神杯的最终归属“算上一卦”,其中也少不了科学家手中的数学模型。“一千个观众中就有一千个哈姆莱特”,十个不同模型就可能预测出十个不同冠军,像巴西队,阿根廷队,法国队都是被预测的夺冠热门。
对于即将到来的2022年卡塔尔世界杯,英国一位流行病学统计研究者Matthew Penn却更看好比利时队,要知道比利时队在世界杯历史上还从来没进过决赛。但这哥们绝不是在“瞎说”,一来人家有自己基于数据的概率模型,二来这个模型曾经在2020年欧洲杯的预测中大放异彩,当时准确地预测了意大利和英格兰会分别是冠亚军,并且预测对了八强球队中的六个。
在11月15日,Nature杂志慕名采访了Matthew Penn这位预测大神,并公布了他使用同一模型预测的本届世界杯结果,各队夺冠的可能性大小如下:
那么这些欧洲杯和世界杯的预测结果是怎么获得的呢?简单说是来自于每场比赛的掷骰子,却又不是简单的掷骰子,而是一种泊松概率分布。
我们投掷一枚普通骰子,会得到1点到6点中的任意一个,并且六种结果的可能性是相等的,称为均匀概率分布。而对于泊松概率分布,我们考虑这样一种情况:假设街边有一家生意并不怎么好的小店,每天经营10个小时,平均每天可以来30个顾客,那么平均每小时就只有3个顾客,还假设顾客都是随机选时间来的,并没有“客流高峰”,如果任意挑选其中营业的一个小时,来的顾客人数一定是3个吗?显然也不一定,这次碰巧可能一个人也没来,下次碰巧可能一下子来了十几个人。而法国数学家泊松给出了下面这一公式:
λ=3表示了平均值,P则表示了这一小时的时间段来了k个人的概率大小,e是自然常数。在泊松眼中,这家小店一小时内恰好来了3位顾客(平均水平)可能性是22.4%,而一个人没来的概率是4.98%,来了很多人的概率同样存在,但可能性很小,比如来了10个人的概率是0.08%,其它人数的概率也可以一一算出。
在现实中,泊松概率分布其实无处不在,很多真实数据都和这一分布惊人的相似。其中包括了核物质每秒放射性衰变的次数,地震等自然灾害发生的次数,公共场所排队的人数,机器出现的故障数,每年飞机坠毁次数,某地区患病的人数,城市各区域犯罪案件发生数量,甚至是普法战争期间普鲁士士兵被马踢死的人数等等。
而在Matthew Penn的模型中,泊松概率分布用来表示了每场足球比赛中某一方的进球个数。一场比赛的胜负和比分自然同时取决于双方的实力和运气,确定性之中又充满了不确定性。
为了衡量各球队实力,模型中给每一支球队分别设置了“攻击力”和“防守脆弱性”指数,前者数值越高越容易进球,后者数值越高表示越容易丢球,防守力越弱。对此,各种网游桌游的玩家一定不会陌生,而在更遥远的时代,方便面里赠送的《水浒传》英雄卡上也都标记了每位好汉的攻击力和防御力。很显然,一等球队攻击力强,防守脆弱性低,二等球队攻击力弱,防守脆弱性低,或者反之,最差的一类球队攻击力弱,防守脆弱性高。
不过办法总比困难多,就像从混乱的进球数可能性中寻找到冠军球队的蛛丝马迹一样,面对神出鬼没的泊松概率分布噪声,研究者通过深度学习人工智能算法可以将拍到的照片中噪声完美去除,做到完好无缺的修复(图右)。无论预测比赛比分,还是去除图片噪声,都离不开大数据作为参考,随机性的迷雾被异曲同工地层层拨开。
作者:焦述铭(鹏城实验室助理研究员,香港城市大学电子工程博士,从事全息三维显示算法,单像素成像,光学计算,图像处理,信息安全,机器学习等研究)