之前在Who is the best?辦的投票活動, 其實是看了兩個估計得分的數據所產生的一些想法.
棒球比賽最重要的數據是勝敗場數, 其次是得失分數, 純看攻擊面的話, 得分和勝敗場幾乎是得價的, 所以要評價打者之間的優劣, 簡單的說就是看誰能幫球隊得到最多的分數.
也因此有很多人在研究如何由打者的數據評估他替球隊增加的分數, 包括Runs Created (RC), Extrapolated Runs (XR)和BaseRuns (BsR)等. 其中引起我的興趣的是兩個線性的數據 - XR和LWTS
XR是蒐集過去各球隊的打擊數據和實際得分, 然後用迴歸分析算出各數據對得分的權重. 根據選擇的數據項的不同, 包含以下幾個版本:
- XR
- = (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (HP+TBB-IBB)) +(.25 x IBB)+ (.18 x SB) + (-.32 x CS) + (-.090 x (AB - H - K)) + (-.098 x K)+ (-.37 x GIDP) + (.37 x SF) + (.04 x SH)
- XR Reduced
- = (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.33 x (HP+TBB)) + (.18 x SB) + (-.32 x CS) + ((-.098 x (AB - H))
- XR Basic
- = (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (TBB)) + (.18 x SB) + (-.32 x CS) + (-.096 x (AB - H))
以上參數都是根據1955~1997的大聯盟數據計算出的.
LWTS則是計算每個事件後, Run Expectancy的變化量. 同樣的, 由於選擇數據項的不同, LWTS也包含好幾個版本
拿XRR和兩個版本的LWTS比較一下
1B | 2B | 3B | HR | NIBB | HBP | IBB | SO | SB | CS | ROE | nonK out | |
XRR | 0.500 | 0.720 | 1.040 | 1.440 | 0.340 | 0.340 | 0.250 | -0.098 | 0.180 | -0.320 | - | -0.098 |
LWTS (99-02) | 0.474 | 0.764 | 1.063 | 1.409 | 0.330 | 0.385 | 0.102 | -0.310 | 0.195 | -0.456 | 0.546 | -0.299 |
LWTS (00-03, NL) | 0.452 | 0.764 | 1.065 | 1.394 | 0.301 | 0.328 | 0.157 | -0.284 | 0.174 | -0.447 | 0.492 | -0.283 |
覺得沒什麼大差別? 應該可以發現出局數的分數相差很多, 其他項目就差距不大. 我們直接把今年的聯盟平均代進去看看:
PA | AB | H | 2B | 3B | HR | BB | IBB | SO | HBP | SH | SF | ROE | GDP | SB | CS | BA | OBP | SLG |
700.0 | 622.0 | 164.0 | 33.6 | 3.3 | 18.2 | 60.9 | 4.9 | 122.7 | 6.2 | 5.7 | 5.1 | 6.6 | 14.5 | 10.4 | 3.9 | 0.264 | 0.333 | 0.416 |
結果是XRR=85.43, LWTS99-02=-9.75, LWTS00-03=-5.94
由於XR是估計球隊總得分, 所以用聯盟平均算出來的數據會接近平均得分/9. 而LWTS則是估計得分變化量, 所以聯盟平均算出來的數據會接近0.
我們將LWTS的每個打席都加上0.12分(08年的總得分/總打席), 這兩個算式算出來的數字就會接近多了.
1B | 2B | 3B | HR | NIBB | HBP | IBB | SO | SB | CS | ROE | nonK Out | |
XRR | 0.500 | 0.720 | 1.040 | 1.440 | 0.340 | 0.340 | 0.250 | -0.098 | 0.180 | -0.320 | - | -0.098 |
LWTS' (99-02) | 0.594 | 0.884 | 1.183 | 1.529 | 0.450 | 0.505 | 0.222 | -0.190 | 0.195 | -0.456 | 0.666 | -0.179 |
LWTS' (00-03, NL) | 0.572 | 0.884 | 1.185 | 1.514 | 0.421 | 0.448 | 0.277 | -0.164 | 0.174 | -0.447 | 0.612 | -0.163 |
此時聯盟平均的XRR仍是85.43, LWTS'99-02變成75.02, LWTS'00-03變成78.83
兩者的主要差異仍然在於對出局數的估計上, LWTS給的權重比XR的重很多. 換言之, LWTS更加的重視上壘率(降低出局的能力).
回到之前的投票, 將三者的XR和LWTS計算一下:
Player | PA | AVG | OBP | SLG | XR | XRR | XRB | LWTS' 99-02 | LWTS' 00-03 NL |
Joe Average | 700 | 0.323 | 0.369 | 0.481 | 105.21 | 106.12 | 104.97 | 102.31 | 104.28 |
Ryan Slugger | 700 | 0.259 | 0.319 | 0.558 | 111.42 | 111.57 | 110.49 | 100.71 | 104.91 |
Kevin Walkman | 700 | 0.286 | 0.414 | 0.413 | 103.21 | 103.84 | 102.62 | 105.81 | 106.55 |
不管哪一個版本的XR,排名都是Ryan Slugger > Joe Average > Kevin Walkman. 但是看LWTS就倒過來了.
由於XR是用一整年的球隊數據去估球隊得分而推出的參數值, 而LWTS則是估計每個事件的得分變化期望值再予以加總, 後者應該會更適合用在評估個人貢獻上.
再者, 不管打得好壞, 每支球隊一整年的總出局數是相差不多的, 勝率高的球隊可能會少打幾場九下, 但基本上將出局數當做常數項來看也是可以的, 因此XR在出局數權重的可信度又更低了一點.
由於以上的原因, 我認為在評估打者個人貢獻度時, LWTS的準度應該是比XR來得好. 而投票的結果也很少人支持XR領先的Ryan Slugger.
話又說回來, 即使以XR來看, 在同樣的打席下多製造了六十多個出局數卻只增加了8分左右, 也很難說數字站在Ryan Slugger這邊. (LWTS因為是以變化量為出發點, 所以應該不需要做出局數校正)
我的結論是Kevin Walkman是最好的打者, Ryan Slugger是三人中最差的, 至少在目前的環境之下如此.
不過linear-weighted後你就算作弊了~當初"單純看上述的數據"可沒有SB-CS的速度因子喔~
回覆刪除:-D
就都算0次啊 XD
回覆刪除