2008/11/29

Run estimations

之前在Who is the best?辦的投票活動, 其實是看了兩個估計得分的數據所產生的一些想法.

棒球比賽最重要的數據是勝敗場數, 其次是得失分數, 純看攻擊面的話, 得分和勝敗場幾乎是得價的, 所以要評價打者之間的優劣, 簡單的說就是看誰能幫球隊得到最多的分數.

也因此有很多人在研究如何由打者的數據評估他替球隊增加的分數, 包括Runs Created (RC), Extrapolated Runs (XR)BaseRuns (BsR)等. 其中引起我的興趣的是兩個線性的數據 - XR和LWTS

XR是蒐集過去各球隊的打擊數據和實際得分, 然後用迴歸分析算出各數據對得分的權重. 根據選擇的數據項的不同, 包含以下幾個版本:

XR
= (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (HP+TBB-IBB)) +(.25 x IBB)+ (.18 x SB) + (-.32 x CS) + (-.090 x (AB - H - K)) + (-.098 x K)+ (-.37 x GIDP) + (.37 x SF) + (.04 x SH)
XR Reduced
= (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.33 x (HP+TBB)) + (.18 x SB) + (-.32 x CS) + ((-.098 x (AB - H))
XR Basic
= (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (TBB)) + (.18 x SB) + (-.32 x CS) + (-.096 x (AB - H))

以上參數都是根據1955~1997的大聯盟數據計算出的.

LWTS則是計算每個事件後, Run Expectancy的變化量. 同樣的, 由於選擇數據項的不同, LWTS也包含好幾個版本

LWTS 99-02
LWTS 00-03 NL

拿XRR和兩個版本的LWTS比較一下

1B2B3BHRNIBBHBPIBBSOSBCSROEnonK out
XRR0.5000.7201.0401.4400.3400.3400.250-0.0980.180-0.320--0.098
LWTS
(99-02)
0.4740.7641.0631.4090.3300.3850.102-0.3100.195-0.4560.546-0.299
LWTS
(00-03, NL)
0.4520.7641.0651.3940.3010.3280.157-0.2840.174-0.4470.492-0.283

覺得沒什麼大差別? 應該可以發現出局數的分數相差很多, 其他項目就差距不大. 我們直接把今年的聯盟平均代進去看看:

PAABH2B3BHRBBIBBSOHBPSHSFROEGDPSBCSBAOBPSLG
700.0622.0164.033.63.318.260.94.9122.76.25.75.16.614.510.43.90.2640.3330.416

結果是XRR=85.43, LWTS99-02=-9.75, LWTS00-03=-5.94

由於XR是估計球隊總得分, 所以用聯盟平均算出來的數據會接近平均得分/9. 而LWTS則是估計得分變化量, 所以聯盟平均算出來的數據會接近0.

我們將LWTS的每個打席都加上0.12分(08年的總得分/總打席), 這兩個算式算出來的數字就會接近多了.

1B2B3BHRNIBBHBPIBBSOSBCSROEnonK Out
XRR0.5000.7201.0401.4400.3400.3400.250-0.0980.180-0.320--0.098
LWTS'
(99-02)
0.5940.8841.1831.5290.4500.5050.222-0.1900.195-0.4560.666-0.179
LWTS'
(00-03, NL)
0.5720.8841.1851.5140.4210.4480.277-0.1640.174-0.4470.612-0.163

此時聯盟平均的XRR仍是85.43, LWTS'99-02變成75.02, LWTS'00-03變成78.83

兩者的主要差異仍然在於對出局數的估計上, LWTS給的權重比XR的重很多. 換言之, LWTS更加的重視上壘率(降低出局的能力).

回到之前的投票, 將三者的XR和LWTS計算一下:

PlayerPAAVGOBPSLGXRXRRXRBLWTS'
99-02
LWTS'
00-03 NL
Joe Average7000.3230.3690.481105.21106.12104.97102.31104.28
Ryan Slugger7000.2590.3190.558111.42111.57110.49100.71104.91
Kevin Walkman7000.2860.4140.413103.21103.84102.62105.81106.55

不管哪一個版本的XR,排名都是Ryan Slugger > Joe Average > Kevin Walkman. 但是看LWTS就倒過來了.

由於XR是用一整年的球隊數據去估球隊得分而推出的參數值, 而LWTS則是估計每個事件的得分變化期望值再予以加總, 後者應該會更適合用在評估個人貢獻上.

再者, 不管打得好壞, 每支球隊一整年的總出局數是相差不多的, 勝率高的球隊可能會少打幾場九下, 但基本上將出局數當做常數項來看也是可以的, 因此XR在出局數權重的可信度又更低了一點.

由於以上的原因, 我認為在評估打者個人貢獻度時, LWTS的準度應該是比XR來得好. 而投票的結果也很少人支持XR領先的Ryan Slugger.

話又說回來, 即使以XR來看, 在同樣的打席下多製造了六十多個出局數卻只增加了8分左右, 也很難說數字站在Ryan Slugger這邊. (LWTS因為是以變化量為出發點, 所以應該不需要做出局數校正)

我的結論是Kevin Walkman是最好的打者, Ryan Slugger是三人中最差的, 至少在目前的環境之下如此.

2 則留言:

  1. 不過linear-weighted後你就算作弊了~當初"單純看上述的數據"可沒有SB-CS的速度因子喔~

    :-D

    回覆刪除

Powered By Blogger