05 & 06 BB/PA
 | 06 & 07 BB/PA
 |
05 & 06 G/F
 | 06 & 07 G/F
 |
05 & 06 HR%
 | 06 & 07 HR%
 |
05 & 06 BABIP
 | 06 & 07 BABIP
 |
數據人人會算,每個人也都可以用基本的統計資料發明自己的數據公式,但是哪些數據是有意義的,哪些又是無用的數據呢?
就我來說,有意義的數據是選手有辦法維持的數據,也就是同一個選手在年與年之間,不容易出現無理由的大幅變動的數據。當然此數據必須對比賽有影響力(比方說球員的肝功能指數雖然在年與年間有很強的關聯性,不過跟棒球比賽沒有直接關係。)一方面,我們使用數據常常是用於預測未來的成績,無法保持的數據對於預測根本沒有使用價值;另一方面,選手沒有辦法維持的數據,很難令人信服是選手自身的能力。
有現代棒球觀念的人會說勝投和打點是意義不大的數據,因為受隊友的影響成份過大;得點圈打擊率(精確來說應該講RISP BA和BA的差距)和投手的BABIP也沒什麼意義,因為統計資料顯示選手沒辦法長期保持這項數據。
找了2006和2007年都投了100局以上的88位投手,和2005及2006年都超過100局的102位投手的成績,做了以上幾張圖。
其中G/F是根據ESPN的資料,HR%=HR/(AB-K),然後將各數據做個簡單的標準化。
橫軸是前一年的數據,縱軸是隔年的數據,如果每個選手都能複製前一年的成績,那所有的點都會落在一條斜率為1的直線上。在每張圖上都有一條趨勢線,如果大部份的點都落在線的附近,代表我們可以根據前一年的數據去預測隔年選手這一項目的成績,相反的若是很多點都離趨勢線很遠,就表示這項數據年與年之間的關聯性不大。
R-square是一個可以將上述的關聯性量化的數值,它代表這條趨勢線對資料的解釋程度有多大,最大值是1,代表所有點都在趨勢線上,最小值是0,代表這條趨勢線完全沒有意義。以下是各數據R-square的值:
R-square
| 05&06 | 06&07 |
K/PA | 0.672 | 0.586 |
BB/PA | 0.583 | 0.386 |
G/F | 0.798 | 0.814 |
HR% | 0.096 | 0.131 |
BABIP | 0.064 | 0.061 |
沒有做球場效應和其他的校正,而且取樣也是有問題的(連續兩年投球局數破百這個條件,事實上就是排除了特定族群的資料。),但是由於差距很明顯,我們就先直接下個簡單的結論吧:
在這五項數據中,投手對於滾飛比有最強的控制力,可以年年投出相近的滾飛比;三振率和四壞球率有不錯的穩定性,不易出現大幅的變動;至於TTO之一的全壘打率,雖然和野手守備沒有任何關係,可是投手並沒有辦法維持這項數據的穩定(打者顯然可以,所以一顆球被打出去會不會變成全壘打,打者的因素應該佔了極大的部份);BABIP和HR%對於隔年的成績沒什麼參考價值,前一年數值高的投手和數值低的,隔年的成績分佈幾乎沒什麼差別,這和前三項數據的情況是差別很大的。簡而言之,這兩項數據就是所謂的「運氣」-選手本身無法掌控的數字。