2008/11/29

Run estimations

之前在Who is the best?辦的投票活動, 其實是看了兩個估計得分的數據所產生的一些想法.

棒球比賽最重要的數據是勝敗場數, 其次是得失分數, 純看攻擊面的話, 得分和勝敗場幾乎是得價的, 所以要評價打者之間的優劣, 簡單的說就是看誰能幫球隊得到最多的分數.

也因此有很多人在研究如何由打者的數據評估他替球隊增加的分數, 包括Runs Created (RC), Extrapolated Runs (XR)BaseRuns (BsR)等. 其中引起我的興趣的是兩個線性的數據 - XR和LWTS

XR是蒐集過去各球隊的打擊數據和實際得分, 然後用迴歸分析算出各數據對得分的權重. 根據選擇的數據項的不同, 包含以下幾個版本:

XR
= (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (HP+TBB-IBB)) +(.25 x IBB)+ (.18 x SB) + (-.32 x CS) + (-.090 x (AB - H - K)) + (-.098 x K)+ (-.37 x GIDP) + (.37 x SF) + (.04 x SH)
XR Reduced
= (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.33 x (HP+TBB)) + (.18 x SB) + (-.32 x CS) + ((-.098 x (AB - H))
XR Basic
= (.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (TBB)) + (.18 x SB) + (-.32 x CS) + (-.096 x (AB - H))

以上參數都是根據1955~1997的大聯盟數據計算出的.

LWTS則是計算每個事件後, Run Expectancy的變化量. 同樣的, 由於選擇數據項的不同, LWTS也包含好幾個版本

LWTS 99-02
LWTS 00-03 NL

拿XRR和兩個版本的LWTS比較一下

1B2B3BHRNIBBHBPIBBSOSBCSROEnonK out
XRR0.5000.7201.0401.4400.3400.3400.250-0.0980.180-0.320--0.098
LWTS
(99-02)
0.4740.7641.0631.4090.3300.3850.102-0.3100.195-0.4560.546-0.299
LWTS
(00-03, NL)
0.4520.7641.0651.3940.3010.3280.157-0.2840.174-0.4470.492-0.283

覺得沒什麼大差別? 應該可以發現出局數的分數相差很多, 其他項目就差距不大. 我們直接把今年的聯盟平均代進去看看:

PAABH2B3BHRBBIBBSOHBPSHSFROEGDPSBCSBAOBPSLG
700.0622.0164.033.63.318.260.94.9122.76.25.75.16.614.510.43.90.2640.3330.416

結果是XRR=85.43, LWTS99-02=-9.75, LWTS00-03=-5.94

由於XR是估計球隊總得分, 所以用聯盟平均算出來的數據會接近平均得分/9. 而LWTS則是估計得分變化量, 所以聯盟平均算出來的數據會接近0.

我們將LWTS的每個打席都加上0.12分(08年的總得分/總打席), 這兩個算式算出來的數字就會接近多了.

1B2B3BHRNIBBHBPIBBSOSBCSROEnonK Out
XRR0.5000.7201.0401.4400.3400.3400.250-0.0980.180-0.320--0.098
LWTS'
(99-02)
0.5940.8841.1831.5290.4500.5050.222-0.1900.195-0.4560.666-0.179
LWTS'
(00-03, NL)
0.5720.8841.1851.5140.4210.4480.277-0.1640.174-0.4470.612-0.163

此時聯盟平均的XRR仍是85.43, LWTS'99-02變成75.02, LWTS'00-03變成78.83

兩者的主要差異仍然在於對出局數的估計上, LWTS給的權重比XR的重很多. 換言之, LWTS更加的重視上壘率(降低出局的能力).

回到之前的投票, 將三者的XR和LWTS計算一下:

PlayerPAAVGOBPSLGXRXRRXRBLWTS'
99-02
LWTS'
00-03 NL
Joe Average7000.3230.3690.481105.21106.12104.97102.31104.28
Ryan Slugger7000.2590.3190.558111.42111.57110.49100.71104.91
Kevin Walkman7000.2860.4140.413103.21103.84102.62105.81106.55

不管哪一個版本的XR,排名都是Ryan Slugger > Joe Average > Kevin Walkman. 但是看LWTS就倒過來了.

由於XR是用一整年的球隊數據去估球隊得分而推出的參數值, 而LWTS則是估計每個事件的得分變化期望值再予以加總, 後者應該會更適合用在評估個人貢獻上.

再者, 不管打得好壞, 每支球隊一整年的總出局數是相差不多的, 勝率高的球隊可能會少打幾場九下, 但基本上將出局數當做常數項來看也是可以的, 因此XR在出局數權重的可信度又更低了一點.

由於以上的原因, 我認為在評估打者個人貢獻度時, LWTS的準度應該是比XR來得好. 而投票的結果也很少人支持XR領先的Ryan Slugger.

話又說回來, 即使以XR來看, 在同樣的打席下多製造了六十多個出局數卻只增加了8分左右, 也很難說數字站在Ryan Slugger這邊. (LWTS因為是以變化量為出發點, 所以應該不需要做出局數校正)

我的結論是Kevin Walkman是最好的打者, Ryan Slugger是三人中最差的, 至少在目前的環境之下如此.

2008/11/28

不然你來翻啊!

Drupal架了一個外電翻譯共筆網站: 不然你來翻啊!

會固定每小時抓取MLBTradeRumors.comYahoo! Sports Rumors的謠言下來給使用者翻譯

翻譯的操作方法請參考說明網頁

有任何意見可以在討論區提出

2008/11/16

Who is the best?

PlayerPAABH2B3BHRBBSOGO/AOHBPAVGOBPSLGOPSGPARCRC/27
Joe Average7006442083442044481.00060.3230.3690.4810.8500.2861147.08
Ryan Slugger70063616534350521260.90860.2590.3190.5580.8770.2831136.49
Kevin Walkman700567162303121221190.95360.2860.4140.4130.8270.290976.46

辦個小投票, 不考慮球場效應及其他的因素, 單純看上述的數據, 你認為這三個人當中, 誰是最好的打者呢?

總票數達20票後公佈我的意見 (大概要到明年 XD)

2008/11/06

2008 K-BB Chart

11/07 Update: 新增07-08變化圖

點擊放大於新視窗

每年都想弄好一個架構完善的Excel檔和VB巨集一勞永逸, 每年那個巨集就是會不見, 今年索性改用PHP GD畫圖, 這樣應該不用年年跟Excel奮戰了.

關於這張圖表, 去年的文章中有基本的說明. 把握住一個重點就好: 越往左上方的投手投球品質越好.

今年收錄195名投手, 分了SP和Swingman&RP兩張圖:

在SP方面, Harden, Lincecum, Sabathia, Ervin Santana(另一個經常出現在這個位置的Santana在右下方, Hamels的右邊, Greinke的左下不遠處), Beckett, Haren, Halladay, Lee和Slowey是今年最好的幾個SP, 沒有任何SP可以在K/PA及BB/PA兩項上同時壓過他們. 其中又可以很明顯的區分出Harden和Lincecum是三振型, Sabathia, Santana, Beckett和Haren是均衡型, Halladay, Lee及Slowey則以控球見長

Grozelanny的BB/PA是SP中最高, Reynolds有最低的K/PA和接近平均的BB/PA, 除了這兩人之外, 只有Carmona找不出兩項都更差勁的投手.

而RP方面, Rivera投出了一個相當驚人的球季, 這張表上最低的BB/PA加上優秀的K/PA. Balfour在K/PA領先, 但BB/PA遜於平均. 郭泓志在這兩項數據上都壓過Nathan, Soria(當然這兩位在AL)及Valverde, 和Wood的表現差不多.

今年的聯盟平均BB/PA及K/PA是(.087, .175), 所以今年的Mr. Average是.....Pedro Martinez (.089, .176) o_O


2007-2008 變化圖