2011/06/28

Who is next 300 wins?

在PTT上看到這個討論,於是就看了幾個可能人選的年齡和所差場數,拿過去的歷史紀錄來比較看看。

由於投手的使用方式會造成勝場累積的難度不同,我以1980年做為分界,只看這之後的投手(1979年是最後一次有人單季先發超過40場:Phil Niekro 44場)。

CC Sabathia 30歲, 167勝 (Carlos Zambrano 30歲, 122勝)

1980年後 在30歲之後拿下133勝以上的投手 13位(178勝以上 5位):

 Player         30歲後勝場      133勝時年齡
 Randy Johnson  222             38
 Jamie Moyer    221+            40
 Roger Clemens  191             40
 Greg Maddux    190             38
 David Wells    181             40
 Charlie Hough  170             41            *32歲起
 Tom Glavine    166             39
 Nolan Ryan     157             42            *33歲起
 Kenny Rogers   149             41
 Curt Schilling 147             39
 Tim Wakefield  141+            42
 Dennis Martinez137             42
 Mike Mussina   134             39

Jon Garland 31歲, 132勝

1980年後 在31歲之後拿下168勝以上的投手 6位:

 Player         31歲後勝場      168勝時年齡
 Jamie Moyer    216+            44
 Randy Johnson  204             42
 Roger Clemens  182             42
 David Wells    176             44
 Greg Maddux    171             42
 Charlie Hough  170             46
 *Nolan Ryan 31歲後(1979~1993) 173勝

Mark Buehrle 32歲, 154勝

1980年後 在32歲之後拿下146勝以上的投手 7位:

 Player         32歲後勝場      146勝時年齡
 Jamie Moyer    208+            42
 Randy Johnson  199             41
 Roger Clemens  172             41
 Charlie Hough  167             44
 David Wells    160             42
 Nolan Ryan     157             44
 Greg Maddux    153             42

Roy Oswalt 33歲, 154勝 (Barry Zito 33歲, 142勝)

1980年後 在33歲之後拿下146勝以上的投手 6位(158勝以上 4位):

 Player         33歲後勝場      146勝時年齡
 Jamie Moyer    195+            44
 Randy Johnson  179             45
 Charlie Hough  163             46
 Roger Clemens  162             44
 David Wells    149             44
 Nolan Ryan     146             46

Roy Halladay 34歲, 178勝

1980年後 在34歲之後拿下122勝以上的投手 6位:

 Player         34歲後勝場      122勝時年齡
 Jamie Moyer    178+            43
 Randy Johnson  160             42
 Charlie Hough  147             43
 Roger Clemens  141             42
 Nolan Ryan     135             44
 David Wells    133             43

Tim Hudson 35歲, 171勝

1980年後 在35歲之後拿下129勝以上的投手 3位:

 Player         35歲後勝場      122勝時年齡
 Jamie Moyer    163+            44
 Randy Johnson  143             43
 Charlie Hough  132             46

還差有點遠的年輕投手:

Justin Verlander 28歲, 93勝

1980年後 在28歲之後拿下207勝以上的投手 4位:

 Player         28歲後勝場      207勝時年齡
 Randy Johnson  254             41
 Jamie Moyer    233+            45
 Greg Maddux    224             41
 Roger Clemens  220             42
 *Nolan Ryan 28歲後(1976~1993) 219勝

Felix Hernandez 25歲, 79勝

1980年後 在25歲之後拿下221勝以上的投手 6位:

 Player         25歲後勝場      221勝時年齡
 Randy Johnson  293             40
 Greg Maddux    280             38
 Roger Clemens  276             40
 Tom Glavine    252             39
 Jamie Moyer    239+            46
 David Wells    232             43
 *Nolan Ryan 25歲後(1973~1993) 276勝

結論

其實寫一寫發現把那七個人拉出來整理一下好像還比較清楚 XD

純以勝場數和年齡來看,不意外地還是CC最有希望,Buehrle和Halladay有點機會,Oswalt差了Buehrle剛好一年就顯得相當拼,Verlander和Felix都還要保持幾年成績再來看。

繼續閱讀

2011/02/22

2010 Yahoo! Public League Average

之前統計過2008年Yahoo公開聯盟各名次平均成績,去年Yahoo公開聯盟的預設設定增加了一名UT和一名P,局數上限也從1250增加為1400局,各累積項目的原始數據理所當然會提高,於是再去抓了去年的464個公開聯盟進行統計,原始數據平均如下:

表1: 各名次的原始數據平均

RkRHRRBISBAVGWSVKERAWHIP
18692188421310.2799212012403.371.22
28482108211230.2779110912113.471.24
38312048011230.2758910011813.511.24
48162017901180.275879011493.551.25
58061967761180.274868411343.641.26
67901907591160.273838010983.661.26
77761867431120.273817310783.671.26
87611847311100.271797110563.721.27
97481817211070.271776410223.791.28
107301746991070.271755810013.851.29
117101686811010.27172559643.891.29
12680160651970.26968459084.011.31

表2: 各單項名次的原始數據平均

RkRHRRBISBAVGWSVKERAWHIP
18932378761690.28710015012953.141.18
28632238421510.2839513112423.301.20
38422138171400.2809211712083.401.22
48242067981310.2788910511763.491.24
58091997831240.276879411473.571.25
67931937661160.274848311173.641.26
77781877481090.272827310883.701.27
87621807301020.271796310553.771.28
9744173709950.269765310193.861.29
10721165685870.26672419753.951.31
11693155655760.26367279174.061.32
12641139604610.25958128044.241.35

數據上跟預期的差不多,打擊的累積成績大概上升了4%,平均項目的AVG下滑,但主因應該不是被第二個UT拉低,而是去年相較08年偏向投手,因為同樣是平均項目的ERA和WHIP非但沒有因為多出來的一個投手而拉高,反而還降低了;W和SV則是上升了15%左右(又一個投手年的證明,局數只多了12%,相對打者從9個變成10個卻只升了4%),但是SV整體來說沒有增加,只是前後段拉得更開了。

今年另外統計了各名次的總分數據,可以看到一些有趣的現象。

Rk平均標準差最低最高
197.906.7479.0113.0
289.455.5573.0105.0
382.694.8571.596.0
477.144.6165.592.0
571.924.3360.084.5
666.864.3253.579.5
761.854.4246.075.5
857.524.4145.069.5
952.694.4040.565.5
1047.194.9431.560.5
1141.545.3122.058.5
1233.266.8111.049.5

各聯盟的第一名平均總分是98分,不過這不代表要拿98分才能拿冠軍,因為第二名的平均只有89.5分,所以90分以上就頗有希望;如果能拿下100分,已經超出平均兩個標準差,還拿不下冠軍大概也只能說運氣太糟吧。相對地,也是有人可以靠79分拿下冠軍。不過105分亞軍也未必是最慘的,因為有人拿了92分還只能和人共享第三名呢。

繼續閱讀

2011/02/17

防止放棄單項的聯盟設定

玩Roto聯盟有個時常看到的策略,就是放棄單項(通常是SV,有時候是SB)來力拚其他項目。這在H2H中更為常見,因為只要每週都能穩穩拿下六項就肯定是冠軍,所以可以放棄一兩個單項來加強其他項目。事實上我自己在小魚聯盟也有多年採用無SV戰略,將資源放到其餘九項上,這背後其實有不少原因,聯盟偏好、喊價制度和未來性考量都有影響。

當然在現實中各項目的均衡性和球隊的戰績本來就沒有絕對的關係,一支球隊可以完全不盜壘得到聯盟最多得分,也可能靠著低於平均的打擊和超強的投手群拿下比投打都名列前茅的球隊更多的勝場數,勝利才是球隊唯一的目標,用跑的還是用打的取勝都無所謂。

不過既然Roto計分制度上區分各種項目,限制了各單項的最高得分,就是希望遊戲中的球隊可以均衡發展,讓更多類型的選手可以在遊戲中成為戰力,以增加遊戲的變化度,同時也有活化交易的功能在。否則其實只要比VORP或WAR一項,變成Point制,得點高的就是較有價值的球員,總分高的也就是較強的一隊,豈不更貼近現實?

能不能避免Roto聯盟的球隊放棄任何項目呢?有個很單純的方法可以大幅降低球隊放棄單項的誘因,只要將球隊的總分由各單項的加總改為各單項的乘積就可以了。

這樣子的話,12分和1分的兩個單項,一下從相當於7分+6分或10分+3分降到相當於4分*3分,單項墊底的傷害大幅增加了。要知道放棄單項的戰略在Roto之所以成立,背景是12人公開聯盟的奪冠條件約是90~100分,90分以上開始有機會,100分大概可以確定封王;所以放棄一項,其餘九項平均拿10分就有機會挑戰冠軍,平均到達11分的話幾乎篤定封王。

如果改用乘積的話,單項1分即使配上九項12分(5.16E+09)也還略低於十項都9.5分(5.99E+09)或是六項9分四項10分(5.31E+09),95分在公開聯盟也不算是穩拿冠軍的分數,如果單項1分配上九項11分(2.36E+09),那更是只相當於三個8分加上七個9分(2.45E+09),大約87分的水準幾乎不可能奪冠。所以放棄一個項目就會讓球隊幾乎沒有退路。

單項搶2~3分拼其他九項的戰略也很難成功,因為搶2分就不能完全放棄,大家都不想當最後一名,所以勢必得投入一定程度的資源,以SV來說,12隊Mixed聯盟至少也得選一個正牌CL才有機會拿到2分以上,如果大家都這樣想那只拿一個可能還不夠,能省下來的資源攤到其他各項上就幾乎沒有了,還不如乾脆認真地經營SV比較有利。(反過來說可能造成CL前幾輪就被掃光?因為總共就30幾個人選,不選就沒有SV了。)

當然這個方法的缺點也很明顯,首先是數字太大,用科學符號表示看起來是還好,但對一般人來說並不直覺。更大的問題是計算分數差距的困難度大增,95-87=8小學生可以用心算算出來,但是乘積5.99E+09和2.45E+09間的差距要怎樣才能追上,能馬上算出來的人恐怕不多。

對數可以在這個部份上幫上一些忙,至少從乘法變成加法,但計算難度仍然比原來的計分方式高出很多。十分迫切希望聯盟所有球隊都能均衡發展的聯盟主席,可以貼張對數表在公告欄上嘗試看看。(真的找得到這麼多GM嗎? XD)

附錄: 1~12以1.25為底之對數值

1.00.00
2.03.11
3.04.92
4.06.21
5.07.21
6.08.03
7.08.72
8.09.32
9.09.85
10.010.32
11.010.75
12.011.14

各單項分數取log值相加總和較高者,單項分數之乘積也較高,反之亦然。很明顯地,越低分的區域每分造成的差距越大。

繼續閱讀

2011/01/09

2010 Lineup Evaluation - Review

下表是用2010年各隊各棒次的實際成績,代入Lineup Evaluator所算出的結果,但各棒次的GO/AO一律使用全隊平均代替。

Team實際得分/27預估得分/27
NYY 5.40385.1553
BOS 5.09135.1894
TBR 5.01714.5435
CIN 4.93644.8362
TEX 4.89504.7265
MIN 4.88134.8058
PHI 4.81944.5640
COL 4.81254.7117
TOR 4.74074.7072
CHW 4.70004.5296
DET 4.68074.6575
MIL 4.67244.6460
ATL 4.64264.5172
STL 4.57774.3870
FLA 4.49274.2112
ARI 4.44494.4203
SFG 4.32224.2384
CHC 4.27534.1280
LAA 4.21823.9359
KCR 4.18624.4006
OAK 4.16794.1230
LAD 4.15823.9072
SDP 4.12003.8458
WSN 4.08244.0267
NYM 4.05873.9498
CLE 4.02543.9805
HOU 3.80643.5301
BAL 3.79873.9493
PIT 3.67813.6529
SEA 3.17683.2978

平均來說,預估得分比實際得分低了約2.4%。誤差最多的Rays實際每27出局的得分是5.0171分,但預估得分只有4.5435分,低估了近10%;而高估最多的是Royals,高估了5.12%(4.1862/4.4006)。

Team實際得分/27預估得分/27誤差值誤差比率
KCR 4.18624.40060.21445.12%
BAL 3.79873.94930.15063.96%
SEA 3.17683.29780.12103.81%
BOS 5.09135.18940.09811.93%
DET 4.68074.6575-0.0232-0.50%
ARI 4.44494.4203-0.0246-0.55%
MIL 4.67244.6460-0.0264-0.56%
PIT 3.67813.6529-0.0252-0.69%
TOR 4.74074.7072-0.0335-0.71%
OAK 4.16794.1230-0.0449-1.08%
CLE 4.02543.9805-0.0449-1.12%
WSN 4.08244.0267-0.0557-1.36%
MIN 4.88134.8058-0.0755-1.55%
SFG 4.32224.2384-0.0838-1.94%
CIN 4.93644.8362-0.1002-2.03%
COL 4.81254.7117-0.1008-2.09%
NYM 4.05873.9498-0.1089-2.68%
ATL 4.64264.5172-0.1254-2.70%
TEX 4.89504.7265-0.1685-3.44%
CHC 4.27534.1280-0.1473-3.45%
CHW 4.70004.5296-0.1704-3.63%
STL 4.57774.3870-0.1907-4.17%
NYY 5.40385.1553-0.2485-4.60%
PHI 4.81944.5640-0.2554-5.30%
LAD 4.15823.9072-0.2510-6.04%
FLA 4.49274.2112-0.2815-6.27%
SDP 4.12003.8458-0.2742-6.66%
LAA 4.21823.9359-0.2823-6.69%
HOU 3.80643.5301-0.2763-7.26%
TBR 5.01714.5435-0.4736-9.44%

造成得分普遍低估的可能原因有很多,最直接的就是壘上有人時打者會打得比較好,這點是有數據支持的,原因可能是防守方在壘上有跑者時投球和守備上都比較困難‧但程式裡沒有區分,不管壘上有幾個跑者都一律以平均成績來推算事件的機率,就造成了得分的低估。

而Rays的得分超過預估最多倒是很好解釋,得分預估程式中GDP的發生機率是聯盟平均,再乘上可能發生的機會(壘上有人,未滿兩出局,打者擊出滾地出局),並不考慮打者與跑者的能力‧而Rays在2010年的GDP是全聯盟最低,僅有92次。再加上觸身保送率及跑者額外進壘率上,Rays去年也都名列前茅,所以實際得分超過計算結果甚多就不令人意外了。

反倒是誤差比率第二名的Astros比較難解釋,Astros的GDP%, HBP%和XBT%都不算出色,只有ROE%在前段班,只能說他們2010年對得分機會的把握比其他隊好吧。因為其他得分預測公式如XR及RC也都十分低估他們的得分。

講到這裡,最後來看看各種得分預測公式在2010年的準確度。

平均相關係數RMSE最大高估率最大低估率
LE/274.3191 (-0.1092)0.95180.18305.12%-9.44%
RC/274.6713 (+0.2429)0.95760.279811.11%-2.12%
LWTS'/274.4851 (+0.0568)0.95890.14808.68%-6.17%
XR/274.5194 (+0.0911)0.96420.15499.96%-3.62%
XRB/274.5097 (+0.0813)0.95880.15769.69%-5.49%

基本上還是完整版的XR最準確;RC/27因為普遍高估太多所以在絕對數據上吃了大虧,以相對分數來說它和LWTS及XRB其實可說是沒有差距的;Lineup Evaluator的準確度和這幾個老前輩相比,還是有段極小的差距,但也算是相當準了。畢竟Lineup Evaluator最主要的目標是在判別同樣的數據下,不同的棒次排列造成的影響,而不是以球隊總成績來估計球隊得分。

繼續閱讀
Powered By Blogger