利用大數據分析預測MLB勝負(上)



本文作者:koer3741

瀏覽次數:763

建立時間:3/31/2022 10:51:40 AM

回文次數:4

本文將要介紹由Andrew Y. Cui撰寫的《Forecasting Outcomes of Major League Baseball Games Using Machine Learning》,其主要是利用機器學習對MLB(美國職棒)進行賽事勝負預測,在最終結果上獲得了61.77%的勝率,但究竟能不能實際運用在運彩當中呢?我們將在介紹完該篇期刊後,為各位實測看看結果!!

以預防讀者一次受到太多資訊的衝擊,而無法有效吸收,本介紹將分為上、中、下三篇,分別為:

  1. 資料的前處理與特徵值的篩選
  2. 模型的建構與選擇
  3. 實測結果

資料的前處理與特徵值的篩選

1.模型預測基準

我們進行模型的預測通常需要一個基準機率,大多在做球類運動的研究者都會先以人們常說的「主隊優勢」做為參考,也就是球隊在主場獲勝的機率作為一個基準,本篇作者也做了一樣的方式,作者利用2000年到2019年的數據計算每年的「主隊獲勝機率」究竟為多少,可以發現這19年來主隊的勝率最高曾來到56%之多,但近幾年的數據可以看到,「主隊優勢」的機率逐漸下降,約來到只剩下53%左右,但不論56%或是53%,這都將成為模型預測的基準,也就是至少要做出能夠高於該勝率的模型,我們才能算是成功
 

2.MLB隊伍強弱會分明嗎?

球隊的強弱分明容易影響模型的預測,我們從下方作者做出從2000年到2019年各球隊勝場數(每一個藍點代表一個球隊該年的勝場數)來看,球隊的強弱分明在近幾年有相對明顯一點,這很可能跟整個MLB的生態有關,強者都容易聚集在強隊上,這也表示我們在預測上或許能夠容易一些,但如果運用在運彩上或許就不是那麼的樂觀,這部份我們之後的篇章再作解釋。

3.先發投手出場次數

          該篇作者還列出從2000年到2019年每年先發投手出場的次數,由上而下分別為該年出場81012152025次的投手,由於先前許多研究者都指出投手是影響比賽左右很重要的因子,因此作者為了凸顯投手的重要性,選擇篩選掉每年先發場次少於12次以下的投手

4.最終選擇了哪些重要特徵呢?

在機器學習中,選擇重要的特徵除了能夠降低運算效能,還能有效的提高預測準確度,而作者在此用了相當多的方法進行特徵重要性的篩選,像是如下方圖示的「相關性」、「模型特徵重要性」、「斜率」、「假設檢定」以及「F score」等5種方式,最終篩選出了「OBP(上壘率)」、「ISO(純長打率)」、「FIP(投手獨立防禦)」、「WHIP(每局上壘率)」、「K/9(9局三振率)」、「HR/9(9局全壘打數)」、「K/BB(三振四壞率)」、「ELO(等級分)」、「休息間距」等9個特徵。

 

最終透過一系列的特徵重要性評估後,作者得出了一個結論,他認為一個球隊能夠獲勝的最大因素不是能有多厲害的投手也不是有多厲害的全壘打打擊者,最重要的其實是「上壘」的能力。

小結

今天我們介紹了該篇作者是如何分析MLB的比賽,以及如何進行特徵選擇,這些特徵值其實都可以當作是我們自行分析的一個參考指標。而下一篇我們將介紹作者是透過哪些機器學習的模型,以及如何選擇最終的預測模型,以得出61.77%的勝率吧!!

中下篇也已經寫出來囉,有興趣的可以去看看!!

利用大數據分析預測MLB勝負(中)

利用大數據分析預測MLB勝負(下)



這分析好啊,好期待該作者是使用哪個模型做出預測的

adsads2323
3/31/2022 10:54:43 AM

分析得太好了!!

根據你的分析,我去下注賺了200萬

BruceWayne
3/31/2022 10:55:56 AM

由於先前許多研究者都指出投手是影響比賽左右很重要的因子,因此作者為了凸顯投手的重要性,選擇篩選掉每年先發場次少於12次以下的投手

----------------------------

以上沒會錯意的話,是指如果該場先發投手是臨時3A上來的,這場比賽就不列入特徵了嗎?篩掉的場次有幾場啊,比例高嗎?

u2150260
3/31/2022 5:17:19 PM

好文, 推~~期待下集啊~~

Guess365
4/1/2022 11:21:31 PM