2008/04/27

RBI Estimation (1)

有時候也會想算一些沒什麼意義的數據。

一直到現在打點都還被相當多的棒球界人士認為是打者-至少是中心打者-最重要的數據。不過對Sabermetrics有點研究的人都會知道RBI並不是個獨立數據,它和打者前段棒次的成績關連不小,兩個相同成績的打者在不同的打線中,前段棒次比較會上壘的那個理所當然會有較多的打點機會,也因此光用打點做為判斷打者的標準是不大公正的。

那如果將所有打者都放到一個聯盟平均的打線中,他們可以打出幾分打點呢?我們倒是可以嘗試著算算看這個數據。

首先要調查所有打者打擊時壘上跑者的狀況分佈,我們從Baseball-Reference找來2007年的split stats,整理成下表(為了編輯方便轉了90度):

Split

000

100

020

003

120

103

023

123

PA1028423416616781562813880603642974993
RBI28122727291919413381268022153582
1B162015812246589520861022607797
2B51091699771251634298185250
3B532148932661291930
HR281294436710436013898134
BB7804237023167911072506869351
HBP87931916368144754958
SF0003170433275416
SH0882266193175330
SO18097538927569432464974685881
GO*28661974843771422393616699951389
*GO為估計值

根據打擊結果的不同,打者的打點數應該如下:

  • 3B:壘上幾個跑者就幾分打點
  • HR:跑者數+1
  • BB,HBP:只有在滿壘情況時有一分打點
  • SF:只會出現在三壘有人時(一二壘不論),一分打點
  • SO:不會有打點
  • AO:如果有打點就會記成SF,其他的AO不會有打點

而比較不確定的有以下四者:

  • 1B:三壘跑者一定回得來,二壘跑者不確定,一壘跑者回不來
  • 2B:二三壘跑者一定回得來,一壘跑者不確定
  • GO:三壘跑者要是跑回來,也有一分打點
  • SH:在003023123時會有一分打點,然而發生在103時不確定

先將確定的部份所產生的RBI填上,RBI'為確定部份產生的RBI總數,RBI"為與RBI'實際RBI的差距,也就是不確定的部份該補上的產出

Split

000

100

020

003

120

103

023

123

RBI28122727291919413381268022153582
1B/RBI16201/00005812/00002465/????895/08952086/????1022/1022607/????797/????
2B/RBI5109/00001699/????771/0771251/0251634/????298/????185/0370250/????
3B/RBI532/0000148/014893/009326/002661/012229/005819/003830/0090
HR/RBI2812/2812944/1888367/0734104/0208360/1080138/041498/0294134/0536
BB/RBI7804/00002370/00002316/0000791/00001072/0000506/0000869/0000351/0351
HBP/RBI879/0000319/0000163/000068/0000144/000075/000049/000058/0058
SF/RBI0/00000/00000/0000317/03170/0000433/0433275/0275416/0416
SH/RBI0/0000882/0000266/000019/0019317/000053/????3/00030/0000
GO/RBI28661/00009748/00004377/00001422/????3936/00001669/????995/????1389/????
RBI'2812203615981716120219279801451
RBI"06911321225217975312352131

先做一些簡單的計算,由上表可以看出,在100時不足的691分打點,應該就是由1699支二壘安打打回來的數目,因此可以推出此時一壘跑者回來得分的比例為691/1699=40.7%;同理在020時一壘安打打回二壘跑者的比例為53.6%,在003情況下,跑者靠GO跑回來的比例為15.8%。

我們首先假設,在壘上有二個以上的跑者時,跑者額外進壘回來得分的比例沒有改變,將資料填回上表,結果變成了這樣:

Split

000

100

020

003

120

103

023

123

RBI28122727291919413381268022153582
1B/RBI16201/00005812/00002465/1321895/08952086/11181022/1022607/0932797/1224
2B/RBI5109/00001699/0691771/0771251/0251634/0892298/0419185/0370250/0602
3B/RBI532/0000148/014893/009326/002661/012229/005819/003830/0090
HR/RBI2812/2812944/1888367/0734104/0208360/1080138/041498/0294134/0536
BB/RBI7804/00002370/00002316/0000791/00001072/0000506/0000869/0000351/0351
HBP/RBI879/0000319/0000163/000068/0000144/000075/000049/000058/0058
SF/RBI0/00000/00000/0000317/03170/0000433/0433275/0275416/0416
SH/RBI0/0000882/0000266/000019/0019317/000053/????3/00030/0000
GO/RBI28661/00009748/00004377/00001422/02253936/00001669/0264995/01581389/0220
RBI'28122727291919413212261020703497
RBI"00001697014585

結果我們發現,當壘上有兩個以上跑者時,計算出來的RBI數低於實際值,顯示跑者額外進壘的比例在這些狀況下提高了。這倒是符合我們的常識,當壘上跑者不只一人時,守備方選擇放棄本壘而阻止其他壘上跑者的機會提高,跑者靠額外進壘回來得分的機率也就上升。

再仔細一想,會發現這個表並沒有考慮到盜壘的影響,以100的狀況來說,一壘跑者在這種狀況下盜壘成功了2195次,這2195個打席事實上應該算做020才對。而盜壘失敗的812個打席,則應該當成000來看。

這裡有一個奇怪的地方,列在100的SB指的顯然是從一壘盜上二壘(總不可能從本壘盜到一壘),那麼020的SB自然也是指從二壘盜上三壘,然而在223次盜壘成功,已經變成三壘有人的打席中,竟然沒有出現任何SF?(由003的split stat來看,SF出現的比率大約是5.6%,223個打席應該要出現約12.6次。)甚至在2006年也沒有SF紀錄,2005和2004僅各有1支。

先不管這個詭異的現象,仍然有其他關於盜壘的問題,當壘上跑者只有一人的100020003時,盜壘一定是由唯一的跑者發動,盜壘後的情況也很容易判斷;而123023分別只出現1次和2次CS,我們可以假設都是死三壘上的跑者,就算猜錯影響也可以忽略;問題在於120103的情況,無法確實判斷盜壘後的壘上狀況,在沒有其他數據的情況下,這個部份只好先用估計的了。

(待續...)


相關文章

  • RBI Estimation (2)
  • RBI Estimation (3)
  • 繼續閱讀

    2008/04/15

    小貼紙又掛掉啦~

    其實上週五就發現了,只是想說剛好乘機來改個板,所以就沒有去修,不過因為趕不出來,所以還是先乖乖回溯到3/16的備份檔。

    其實還發現水晶球的投手排行榜也壞掉了,所以也清空重來了。

    重建排行榜時還跑出了一個超猛的Carlos Zambrano..........

    繼續閱讀

    2008/04/06

    Baseball season is open

    好像應該寫season was open才對. XD

    今年在Yahoo! Fantasy Baseball只玩了三隊,其中一隊是小魚聯盟,另外Public(autopick)和Winner(live)各一隊。

    這兩三年Yahoo的O-Rank準確度進步很多,再加上Draft AnalysisExperts Rankings等實用的輔助工具,就算只靠Yahoo!的資訊,玩家要選很糟也不容易。反過來說,要像之前一樣輕易的偷到sleeper也變得困難得多了。

    以往選winner和public的差別是public常常可以撿到因為O-Rank差而掉出來的漏網之魚,winner比較不會有這種情況,現在選public的感覺就跟之前的winner差不多。

    今年選秀中段有好幾輪選得很痛苦,不過要是Yahoo!保持這種水準,未來大概就得要習慣於選到"就是這一輪該選"、"不賺不賠"、"沒有明顯比其他選擇好"的球員了吧。

    繼續閱讀
    Powered By Blogger