前言
因為不少朋友反應想了解更多關於數據介紹,因此這篇將主要介紹常見棒球統計數據名詞(中職能算的)、公式或概念。本篇將分成以下架構介紹:
- 如何解讀數據、常見數據概念。
- 個別介紹每一項數據,並盡可能附上算法和概念。
如何解讀數據
傳統數據多多少少存在一些盲點,例如主觀因素過重、比重不均、分析層面過於粗略。為了解決這些問題出現了不少進階數據,大致上解讀數據可分以下幾個想法:
- 累積型數據和平均型數據是有所不同。累積型數據是指球員上場時間愈多成績愈有利,例如張正偉在2015年擊出140隻安打,這當然得有足夠上場時間才能達成;而平均型數據是指將累績數據做進一步處理,例如張正偉2015年打擊率0.335,經過處理後的數據在樣本數足夠下才能一起比較,例如2015年張正偉打擊率0.335,王勝偉0.291。
- 樣本數是否足夠。當樣本數過小時,數據容易失真或變動性過大,因此大多數數據均要求一定量的樣本數,對於樣本要求各方標準不一,常見的是打者要求平均每場3.1個打數,投手要求每場一局。若樣本數不足時,建議看基礎數據表現即可或另取合理門檻。
- 進階數據大多是經過迴歸分析而得到公式,其資料來源多數是以MLB過去資料為母樣本做分析,雖然不一定完全適用在中職上,但多數數據具有一定參考性。
- 進階數據重視組距大於數字大小。這是解讀進階數據時大多數人的迷思,例如A球員XR/27是6.12,B球員是6.37,解謮上會認為A和B球員是同一個等級,而不會說B球員比A球員好,原因如同(3)所述,公式係數多數是經由迴歸得到的數字,只要稍微改變一下變因就可能改變係數,因此以數字大小決定強弱是沒有意義。
- 部份進階數據是跟聯盟平均或底層球員做比較,例如WAR、WS等等
- 多數進階數據數字愈高等級愈好,但也有少數數據是數字愈少愈好,通常以+號表示前項,以-號表示後項。
- 貢獻值和能力值並不相同。貢獻值是指實際上球員提供多少成績給球隊,偏向結論性質,通常上場時間愈多球員愈有機會提供更多貢獻值;能力值較具預測性,偏向理論性質。實務上可能因受傷、被其他球員卡位等因素而無足夠時間和空間,具高能力值選手無法提供高貢獻值。
- 雖然大多數進階數據會盡可能去除(降低)主觀因素,但仍然有可能會有缺陷,評斷球員前建議多觀察幾項數據。
數據簡介
本章將分成打擊、投手、綜合等層面介紹常見數據。(註1)
(1) 打擊
(A) AVG 打擊率:H/AB
常見數值在0.25~0.30之間,大於0.30即是優秀成績。
OBP 上壘率:(H+BB)/(BB+SF+AB)
因為打者不只靠安打能上壘或推進壘包,上壘率能評估一名打者成功打 擊的機率,較打擊率更為精準。
SLG 長打率: TB/AB
長打率原意是指球員每一個打數能進佔多少壘包。對於球賽影響性來說,即便是安打,仍可分成1B、2B、3B、HR等不同影響性,長打率比打擊率更能釐清球員進攻時的破壞能力。
OPS 整體攻擊指數 : OBP+SLG = OPS
顧名思義就是把上壘率加上長打率,綜合評斷打者打擊成功機率和破壞力。
OPS+ : (OBP/ lg OBP + SLG/ lg SLG -1)*100%
OPS+較OPS直觀,藉由和聯盟平均球員成績比較,如果OPS+是120球員,表示該球員高於聯盟平均20%。
GPA è GPA= (1.8*OBP+SLG ) /4
根據多數論文研究出來資料,上壘率比長打率重要約1.8倍,但OPS 把兩者視作同等重要,這是OPS為人詬病之處。因此GPA主要目的即是修正此問題,除以4原因主要是希望此數值跟打擊率相近,判斷上更為直觀,一般GPA大於0.28即是優秀球員。
(B) XR/27
XR=(.50 x 1B) + (.72 x 2B) + (1.04 x 3B) + (1.44 x HR) + (.34 x (HP+TBB-IBB))+(.25 x IBB)+ (.18 x SB) + (-.32 x CS) + (-.090 x (AB - H - K)) + (-.098 x K)+ (-.37 x GIDP) + (.37 x SF) + (.04 x SH)
出局數= AB-H+SH+SF+CS+GIDP
XR/27 = XR / 出局數*27
棒球數據學家一直對於打擊表現能製造出多少分數表達濃厚興趣,經由多次研究和迴歸分析,公式有相當多版本。XR表示一名球員創造出多少分數,考慮面向從安打能力、選球能力、推進壘包能力和阻斷攻勢等多方向綜合評估,但此數據屬於累績型,為了在同等基礎上考慮,把XR除非出局數*27,可視作一名球員在27個出局數中提供多少分數。
(C) wOBA.69*uBB+0.72*HBP+0.89*1B+1.27*2B+1.62*3B+2.10*HR)/(AB+BB-IBB+SF+HBP)
WRAA= ((WOBA-lg WOBA)/ WOBA Scale)*PA
WRC=((WOBA-lg WOBA)/ WOBA Scale)+lg R/PA))*PA
WOBA系統是另一位數據專家Tom Tango研發,主要也是因為ops有比重不均缺陷,故根據安打能力和選球能力去做分析,每年fangraphs網站均會對woba係數做調整。一般而言,Woba數值大於0.38即為優秀球員。
而WRAA則是延伸出的數據,主要是評估該球員比聯盟平均選手多貢獻幾分,WRC和WRAA計算類似,主要差別在WRAA可能有負值,WRC較不易有負值,另外WRC+跟OPS+觀念類似。
(2) 投手
(A) ERA 自責分率: ER/IP*9
ERA主要是評估一名投手若投滿27個出局數會丟幾分自責分
WHIP = (H+BB)/(IP)
ERA僅能呈現出自責失分結果,但計算自責分時,RP有可能被安打後的失分是前一位投手留下來的分數,並不會計算在自己身上,故WHIP較ERA能顯現出投手的壓制能力,其概念是每局讓多少名打者上壘。
ERA+觀念類似OPS+
(B) (CER) = {[(H - HR)*1.255 + HR*4]*0.89 + (BB + IBB + HB)*0 .56}*{HB + H + BB}/(Total Batters Faced)
ERC = CER*9/IP - 0.56
自責分的認定非常主觀,每人認定失誤定義並不相同,故誕生了ERC(真實防禦率),ERC主要是利用被安打數、四壞、打席等數據對自責分做迴歸分析,數據較ERA客觀許多。
(C) FIP= (13*HR+3*(BB+HBP)-2*K)/IP+constant
Constant = lg era –(((13*lg hr)+(3*(lg BB+lg hbp ) – 2*lg k ) / lg IP)
Xfip=((13*flyballs*lg hr/flyballs % )+3*(hbp+bb)-2*k)/IP + constant
FIP主要針對K、HR、BB、HBP等四項投手可控制因素對自責分做迴歸分析,概念是去除掉守備失誤因素,其值因為易受飛球影響,故XFIP是針對球場因素修正。值得注意的是曾有人做過中職迴歸分析,發現係數和MLB 有極大差異,以本人實際操作後發現,數值和國外數據統計亦有不少差異,此部份仍有待確認是否適用於中職數據分析。
一般來說FIP、ERC、ERA若能落在3~4之間就是不錯成績。
(3) 綜合
(A) WS (勝場分享指數)
WS計算過程非常繁雜,所以我就不提供算法了。WS概念是分析勝場是如何組成,因此把棒球比賽分成攻擊及防守兩種層面,而防守又分成投手和守備。藉由理論勝率可得知該球隊賽季中攻擊和防守各佔多少比例,將勝場數*3分配給攻擊、投手、守備方後,再統計每個球員表現,依序依表現分配得到各自的WS,即表示該球員表現累績值為該隊得到幾場勝利。
註1: 目前仍先介紹中職可計算數據為主,守備數據因資訊不足,日後有機會再介紹。
最後,如果你看完以上介紹還是對進階數據霧煞煞,那再給你一個超級無敵簡單的懶人版,再看不懂我也沒辦法啦!!
基礎版 |
進階版 |
說明 |
|
AVG打擊率 |
GPA |
0.28以上就是優秀成績 |
|
OBP上壘率 |
WOBA |
0.38以上就是優秀成績 |
|
OPS+ |
WRC+和XR/27+ |
120%表示超過聯盟平均20%,其他以此類推。 |
|
ERA |
FIP、XFIP、ERC |
每九局失幾分。 |
|
ERA+ |
ERC+ |
120%表示超過聯盟平均20%,其他以此類推。 |
|
項目 |
說明 |
||
WHIP |
每局被上壘幾人 |
||
WS |
該球員貢獻幾場勝差 |
||
WRAA |
該球員多貢獻幾分 |
留言列表