有時候也會想算一些沒什麼意義的數據。
一直到現在打點都還被相當多的棒球界人士認為是打者-至少是中心打者-最重要的數據。不過對Sabermetrics有點研究的人都會知道RBI並不是個獨立數據,它和打者前段棒次的成績關連不小,兩個相同成績的打者在不同的打線中,前段棒次比較會上壘的那個理所當然會有較多的打點機會,也因此光用打點做為判斷打者的標準是不大公正的。
那如果將所有打者都放到一個聯盟平均的打線中,他們可以打出幾分打點呢?我們倒是可以嘗試著算算看這個數據。
首先要調查所有打者打擊時壘上跑者的狀況分佈,我們從Baseball-Reference找來2007年的split stats,整理成下表(為了編輯方便轉了90度):
Split | 000 | 100 | 020 | 003 | 120 | 103 | 023 | 123 |
PA | 102842 | 34166 | 16781 | 5628 | 13880 | 6036 | 4297 | 4993 |
RBI | 2812 | 2727 | 2919 | 1941 | 3381 | 2680 | 2215 | 3582 |
1B | 16201 | 5812 | 2465 | 895 | 2086 | 1022 | 607 | 797 |
2B | 5109 | 1699 | 771 | 251 | 634 | 298 | 185 | 250 |
3B | 532 | 148 | 93 | 26 | 61 | 29 | 19 | 30 |
HR | 2812 | 944 | 367 | 104 | 360 | 138 | 98 | 134 |
BB | 7804 | 2370 | 2316 | 791 | 1072 | 506 | 869 | 351 |
HBP | 879 | 319 | 163 | 68 | 144 | 75 | 49 | 58 |
SF | 0 | 0 | 0 | 317 | 0 | 433 | 275 | 416 |
SH | 0 | 882 | 266 | 19 | 317 | 53 | 3 | 0 |
SO | 18097 | 5389 | 2756 | 943 | 2464 | 974 | 685 | 881 |
GO* | 28661 | 9748 | 4377 | 1422 | 3936 | 1669 | 995 | 1389 |
根據打擊結果的不同,打者的打點數應該如下:
- 3B:壘上幾個跑者就幾分打點
- HR:跑者數+1
- BB,HBP:只有在滿壘情況時有一分打點
- SF:只會出現在三壘有人時(一二壘不論),一分打點
- SO:不會有打點
- AO:如果有打點就會記成SF,其他的AO不會有打點
而比較不確定的有以下四者:
- 1B:三壘跑者一定回得來,二壘跑者不確定,一壘跑者回不來
- 2B:二三壘跑者一定回得來,一壘跑者不確定
- GO:三壘跑者要是跑回來,也有一分打點
- SH:在003、023和123時會有一分打點,然而發生在103時不確定
先將確定的部份所產生的RBI填上,RBI'為確定部份產生的RBI總數,RBI"為與RBI'實際RBI的差距,也就是不確定的部份該補上的產出
Split | 000 | 100 | 020 | 003 | 120 | 103 | 023 | 123 |
RBI | 2812 | 2727 | 2919 | 1941 | 3381 | 2680 | 2215 | 3582 |
1B/RBI | 16201/0000 | 5812/0000 | 2465/???? | 895/0895 | 2086/???? | 1022/1022 | 607/???? | 797/???? |
2B/RBI | 5109/0000 | 1699/???? | 771/0771 | 251/0251 | 634/???? | 298/???? | 185/0370 | 250/???? |
3B/RBI | 532/0000 | 148/0148 | 93/0093 | 26/0026 | 61/0122 | 29/0058 | 19/0038 | 30/0090 |
HR/RBI | 2812/2812 | 944/1888 | 367/0734 | 104/0208 | 360/1080 | 138/0414 | 98/0294 | 134/0536 |
BB/RBI | 7804/0000 | 2370/0000 | 2316/0000 | 791/0000 | 1072/0000 | 506/0000 | 869/0000 | 351/0351 |
HBP/RBI | 879/0000 | 319/0000 | 163/0000 | 68/0000 | 144/0000 | 75/0000 | 49/0000 | 58/0058 |
SF/RBI | 0/0000 | 0/0000 | 0/0000 | 317/0317 | 0/0000 | 433/0433 | 275/0275 | 416/0416 |
SH/RBI | 0/0000 | 882/0000 | 266/0000 | 19/0019 | 317/0000 | 53/???? | 3/0003 | 0/0000 |
GO/RBI | 28661/0000 | 9748/0000 | 4377/0000 | 1422/???? | 3936/0000 | 1669/???? | 995/???? | 1389/???? |
RBI' | 2812 | 2036 | 1598 | 1716 | 1202 | 1927 | 980 | 1451 |
RBI" | 0 | 691 | 1321 | 225 | 2179 | 753 | 1235 | 2131 |
先做一些簡單的計算,由上表可以看出,在100時不足的691分打點,應該就是由1699支二壘安打打回來的數目,因此可以推出此時一壘跑者回來得分的比例為691/1699=40.7%;同理在020時一壘安打打回二壘跑者的比例為53.6%,在003情況下,跑者靠GO跑回來的比例為15.8%。
我們首先假設,在壘上有二個以上的跑者時,跑者額外進壘回來得分的比例沒有改變,將資料填回上表,結果變成了這樣:
Split | 000 | 100 | 020 | 003 | 120 | 103 | 023 | 123 |
RBI | 2812 | 2727 | 2919 | 1941 | 3381 | 2680 | 2215 | 3582 |
1B/RBI | 16201/0000 | 5812/0000 | 2465/1321 | 895/0895 | 2086/1118 | 1022/1022 | 607/0932 | 797/1224 |
2B/RBI | 5109/0000 | 1699/0691 | 771/0771 | 251/0251 | 634/0892 | 298/0419 | 185/0370 | 250/0602 |
3B/RBI | 532/0000 | 148/0148 | 93/0093 | 26/0026 | 61/0122 | 29/0058 | 19/0038 | 30/0090 |
HR/RBI | 2812/2812 | 944/1888 | 367/0734 | 104/0208 | 360/1080 | 138/0414 | 98/0294 | 134/0536 |
BB/RBI | 7804/0000 | 2370/0000 | 2316/0000 | 791/0000 | 1072/0000 | 506/0000 | 869/0000 | 351/0351 |
HBP/RBI | 879/0000 | 319/0000 | 163/0000 | 68/0000 | 144/0000 | 75/0000 | 49/0000 | 58/0058 |
SF/RBI | 0/0000 | 0/0000 | 0/0000 | 317/0317 | 0/0000 | 433/0433 | 275/0275 | 416/0416 |
SH/RBI | 0/0000 | 882/0000 | 266/0000 | 19/0019 | 317/0000 | 53/???? | 3/0003 | 0/0000 |
GO/RBI | 28661/0000 | 9748/0000 | 4377/0000 | 1422/0225 | 3936/0000 | 1669/0264 | 995/0158 | 1389/0220 |
RBI' | 2812 | 2727 | 2919 | 1941 | 3212 | 2610 | 2070 | 3497 |
RBI" | 0 | 0 | 0 | 0 | 169 | 70 | 145 | 85 |
結果我們發現,當壘上有兩個以上跑者時,計算出來的RBI數低於實際值,顯示跑者額外進壘的比例在這些狀況下提高了。這倒是符合我們的常識,當壘上跑者不只一人時,守備方選擇放棄本壘而阻止其他壘上跑者的機會提高,跑者靠額外進壘回來得分的機率也就上升。
再仔細一想,會發現這個表並沒有考慮到盜壘的影響,以100的狀況來說,一壘跑者在這種狀況下盜壘成功了2195次,這2195個打席事實上應該算做020才對。而盜壘失敗的812個打席,則應該當成000來看。
這裡有一個奇怪的地方,列在100的SB指的顯然是從一壘盜上二壘(總不可能從本壘盜到一壘),那麼020的SB自然也是指從二壘盜上三壘,然而在223次盜壘成功,已經變成三壘有人的打席中,竟然沒有出現任何SF?(由003的split stat來看,SF出現的比率大約是5.6%,223個打席應該要出現約12.6次。)甚至在2006年也沒有SF紀錄,2005和2004僅各有1支。
先不管這個詭異的現象,仍然有其他關於盜壘的問題,當壘上跑者只有一人的100、020和003時,盜壘一定是由唯一的跑者發動,盜壘後的情況也很容易判斷;而123和023分別只出現1次和2次CS,我們可以假設都是死三壘上的跑者,就算猜錯影響也可以忽略;問題在於120和103的情況,無法確實判斷盜壘後的壘上狀況,在沒有其他數據的情況下,這個部份只好先用估計的了。
(待續...)
相關文章
個人看了一下那個 split,也很快的想了一下:
回覆刪除如果考慮 RISP 的 PAs,也就是 51615,它是 'Men On' 減 '1--',而 '-2-' + '--3' + '12-' + '1-3' + '-23' + '123' 也正好是 51615,所以這幾個 categories 是 disjoint 的。
至於 'Men On' 的 RBI 與 RISP + '1--' 的 RBI 也相符,moreover,RISP 的 RBI 也等於 '-2-' + '--3' + '12-' + '1-3' + '-23' + '123' 的 RBI,所以這些 RBI 也是 disjoint 的,這和 RE Matrix 的那種 expected value 的算法不一樣。
換句話說,如果考慮的是 '-2-' 的 SB,接下來 SH 的 RBI 應該是計在 '--3' 的 category,否則 '-2-' 與 '--3' 的 RBI 會有重疊的部份。更具體一點:state 已經 transited -- 由 '-2-' 成為 '--3'。
所以對個人來說,比較奇怪的反而是 05 與 04 年在 '-2-' 的情況下所發生的各 1 支 SF,這不是個該發生的情況,至少在個人看來是這樣,我想可能只有 trace Retrosheet 才能解決這個疑問。
另一個在原連結上符號不太好看的部份是 '--3, lt 2out' 與 '--3, 2out' 的部份,這兩個 disjoint 的 categories 所表現出的 PA 總數其實是所有 "Men on 且 3B 有人" 的 PA 總數,也就是 '--3' + '1-3' + '-23' + '123' 的 PAs,它的表示法讓人一瞬間以為只有考慮 '--3'。
不曉得個人講得是否正確,等你的檢驗與解釋了。
既然四年下來只有3支三壘無人時的SF(2004年120時有一支) 這問題有個很簡單的解釋:
回覆刪除有人打出外野飛球出局讓二壘跑者跑兩個壘回來得分 這在理論上是有可能發生的
只找了2004年在020時的那一支SF 是PIT的Ward在6/2打的 這是那一場的Gamelog:
http://www.baseball-reference.com/boxes/PIT/PIT200406020.shtml
深遠中外野飛球被接殺 Kendall從二壘上跑兩個壘回來得分
看了Gamelog的格式大概了解了狀況
回覆刪除以這一場的第一局為例:
http://www.baseball-reference.com/boxes/WAS/WAS200704020.shtml
Ramirez在020時盜盜壘 所以這盜壘會記在020的狀態
成功後狀態轉為003 Cabrera被保送是在這個狀態的是 所以PA和BB等會記在003的狀態
這樣結論好像是估RBI時不用考慮盜壘的影響 XD