사이드바 영역으로 건너뛰기

펌)야구 통계

출처는 http://free5.tt.co.kr/dreams/ttboard/ttboard.cgi?category=&search_method=&search_mode=&search_word=&act=view&code=29&bname=COLUMN&page=1&SearchBlock=1

 

여기에서....

 

잊는 줄 알았는데 제일 처음 웹프로그래머를 시작한 이유가 보드게임을 만들기 위해서였다...

 

 

 

 

[펀글] 세이버 메트릭스 (上 야구 통계에 대한 이해와 오해)
     
  작성자 : 윤석준 (dreams@dreamsbaseball.com)  
  작성일 : 02/12/10 11:01 (2002/12/10 12:58)  
  카테고리 :  
  조회수 : 260  
  추천수 : 5  
     
  스포츠서울 마니아 월드에 실린 명예기자 최우근씨의 야구통계에 관한 기사입니다. 전문적인 내용이지만 야구를 깊이 이해하는데 도움이 되는 기사이기에 2회에 걸쳐 싣습니다.
기사 원문 보기




[MLB]세이버 메트릭스 (上 야구 통계에 대한 이해와 오해)

2002. 12. 09

필자주 : 야구를 좋하시는 분들이라면 웹상에서 적어도 한번쯤은 세이버 메트릭스란 단어를 접하신 경험이 있으리라 생각됩니다. 그러나 정작 그것이 무엇인지 체계적으로 설명해 놓은 한국어로 쓰여진 글이나 자료는 거의 전무한 실정입니다. 이에 필자는 '세이버 메트릭스란 무엇인가?' 라는 기획기사를 준비했습니다. 上편은 야구 통계에 대한 이해와 오해를 다루고 있으며, 下 편에서는 '세이버 메트릭스 공식 & 관련 사이트’ 를 소개해 드립니다. 다소 지루하고 딱딱한 내용이 될수도 있으나 꼭 일독해 보시길 권해드립니다. 감사합니다.


(上) 야구 통계에 대한 이해와 오해


Q 세이버 메트릭스란 무엇인가요?


우측 사진의 책에서 정의한 세이버 메트릭스의 원론적인 의미는 야구기록의 수학적 연구방법입니다. 1971년 설립된 미국 야구연구 협회의 (Society for American Baseball Research, SABR 바로가기) 머리글자를 따서 칭하였고, 컴퓨터 시물레이션과 복잡한 고등수학의 도움을 빌려 야구기록을 분석하고 전통적인 야구이론을 발전시키는 일을 하는 야구통계의 신조어입니다. 또 SABR의 회원들을 일컬어 세이버 메트리션이라 칭합니다.


Q 세이버 메트리션들이 전통적인 스포츠 라이터들과 다른점은 무엇입니까?


야구통계의 허상을 지적하는 전통적인 야구인들은 통계가 시즌의 전반적인 고찰은 가능하지만 게임을 깊게 이해하는데는 명백한 한계가 있다고 주장하며, 통계에 대한 맹신을 경고합니다. 일면 맞는말 입니다. 그러나 플레이가 처한 상황을 하나 하나 고려해 필드에서 일어난 모든 경우의 수를 컴퓨터와 개인파일에 넣어 처리할수 있게된 오늘날의 야구통계에 허상이란 거의 존재하지 않습니다. 통계의 허상이 있다면 KBO 기록실이나 언론사 기록실의 조악하고 수박겉핥기 식의 데이터 베이스와 공부하지 않는 해설자들이 알고 있는 가공되지 않은 통계(raw stats)에 있습니다.


세이버 메트리션들은-빌제임스와(사진) 같은 사람들- 시대와 시즌, 게임, 팀, 공격, 수비, 피칭등 야구에 관한 모든 질문에 고민합니다. 선수의 예측, 평가, 구장과 시대, 수비와 피칭, 클러치 능력의 존재유무, 승률, 트레이드, 감독의 작전 등을 팀기록, 개인기록, 플레이 by 플레이, 피치 by 피치등의 데이터를 토대로 새로운 시각에서 분석하며 해석합니다.


가령 “본즈와 루스중 누가 더 위대한 선수인가?” 라는 야구팬들의 원초적인 호기심을 위해 그들은 다양한 시도를 즐깁니다. 야구란 무엇인가의 저자 레너드 코페트는 통계편에서 “연대가 서로 다른 야구 통계의 숫자들을 대조하려면 각 시대의 기록의 환경과 배경에 대한 이해와 구장등의 분석이 뒤따라야 하는데 통계를 들여다 보는 사람들은 그런 내용을 모르고 있기 쉽상이다. 또한 통계상으로 비교할때는 모든 조건이 같아야 한다는게 전제되야 하는데 실제로 그런 조건이 갖춰지는 일은 절대로 없다” 고 쓰고 있습니다. 과연 대단하신 분입니다. 그러나 저자가 초판을 발행할 당시보다 눈부시게 발전한 오늘날의 야구통계의 다양한 시도를 보노라면 적어도 통계파트는 새롭게 쓰여져야 하지 않을까 생각합니다. 오늘날 세이버 메트릭스 에서 가장 많이 다뤄지는 화두는 ‘시대와 구장효과를’ 고려한 시대별 비교분석입니다.


그들이 취급하는 통계는 게임로그를 토대로 분석한 방대한 데이터들의 연구결과 입니다. 세이버 메트리션들의 통계의 범주는 단순히 타율, 타점, 혹은 OPS, RC 등으로 선수의 성취도를 평가하는데 국한되지 않습니다. 그들은 기록으로 설명하기 힘든 부문까지 고민하고 토론하며 경기의 모든 흔적을 복기해 나갑니다.


전통적인 스포팅 라이터들이나 칼럼니스트들은 세이버 이론을 한낯 수학 공식쯤으로 치부합니다. 그러나 세이버 이론가들 중에 수학자나 통계학자는 없습니다. 대신 야구를 더 깊게 이해하기 위해 테이터를 수집하고 가공하는 사람들만 있습니다. 피지컬한 야구의 기술적인 측면을 제외하면 그들은 통계를 알지 못하는 사람들 보다 훨씬 더 야구를 깊게 이해하고 있습니다. 전통적인 스포츠 라이터들이 잘못된 거짓우상을 아무런 여과없이 그대로 수용하는 반면 세이버 메트리션들은 반드시 기록을 사용한 통계적인 검증을 거칩니다.


아주 간단한 예를 들어봅니다. 전미 야구 기자 협회는 올해의 AL MVP로 오클랜드의 미겔 테하다를 선정했습니다. 그들은 테하다야 말로 팀승리에 가장 많은 공헌을 한 가장 ‘가치있는 선수’ 라 주장합니다. 그러나 사실 테하다는 A 로드 보다 특별히 클러치 능력이 뛰어나지도, 팀승리에 많은 기여를 하지도 못했습니다. 아니 오히려 A-rod가 테하다 보다 훨씬 더 많은 승리를 텍사스에 벌어다 줬습니다. 다음은 상황별 두선수의 생산력 (출루율+장타율) 비교입니다.


A 로드 : close and late .921, scoring position 1.231,
one run game .983 승리 게임 1.115
테하다 : close and late .859, scoring position .997,
one run game .627 승리 게임 .918



'close and late' 는 7회 이후 한점차 리드 상황이거나 동점, 혹은 동점찬스를 말합니다. 'scoring position' 은 스코어링 포지션을 'one run game' 은 한점차 승부를 말하며 승리게임은 팀이 승리한 경기에서 테하다와 A 로드가 기록한 OPS입니다. 위의 수치들 어디를 봐도 테하다가 A 로드 보다 팀 승리에 더 많은 공헌을 했다고 우길수(?) 있는 근거는 없습니다.


혹자들은 A로드가 텍사스에 없더라도 텍사스는 지구 꼴지지만, 미기가 없었다면 오클랜드는 결코 지구우승의 열매를 따지 못했을 거라 강변합니다. 맞는 이야기입니다. 올시즌 테하다는 지암비가 빠져나간 공백을 최소화하며 팀의 리더역할을 훌륭히 해냈습니다. 그러나 그렇다 한들 둘의 가치가 바뀌는 것은 아닙니다. A 로드의 2002년은 단순히 테하다 보다 ‘그냥’ 조금 더 잘한 수준이 아닙니다.


클릭 하시면 RARP 조회 하실수 있습니다.


Baseball Prospectus의 RARP(Runs Above Replacement Position) 랭킹에 따르면 올시즌 미겔 테하다는 같은 포지션의 후보수준의 선수들보다 약 56.9점의 추가적인 득점공헌을 기록합니다. 반면 A로드는 87.6점입니다. 둘간의 차이는 30.7점. 오마 비스켈의 RARP가 30.3점 데이비드 엑스타인이 32.3점입니다. 오마비스켈(혹은 엑스타인)과 테하다의 득점공헌을 합한 수치가 A 로드의 그것에 비견될 정도로 텍사스 유격수의 올시즌은 역사적입니다.


물론 테하다는 MVP가 될만한 충분한 자격이 있습니다. 그러나 A 로드가 훨씬 더 훌륭합니다. 만일 테하다의 MVP가 전통의 계승과 대의를 위한 불가피한 선택이었다면 MVP에 대한 개념을 좀 더 명확히 해 둘 필요가 있습니다. 올시즌 A로드의 사례에서 보듯 MVP는 이제 팀승리에 가장 많은 공헌을 한 선수가 아닌 리그 4위팀 안쪽에 있는 핵심 선수에게 ’만’ 줄수 있는 상이 될 듯 합니다.


세이버 메트리션들은 이런 부당함을 기회의 수를 가정한 통계로 증명했습니다. 인터넷 최고의 칼럼니스트로 통하는 ESPN의 Rob Neyer 역시 'End-of-season awards becoming irrelevant'란 글에서 필자와 거의 같은 논지의 이야기를 하고 있습니다.


3대 유격수(지터, 미기, 노마) A 로드는 이제 3인방이 아닌 NO 1 입니다.



Q 그렇다면 통계로 야구를 이해하는 것은 완전 무결한 것인가요?


반드시 그렇지는 않습니다.

세이버 메트릭스는 기본적으로 통계에 기반한 야구이론이기 때문에 그로인해 야기되는 몇가지 문제를 지닙니다. 통계에 관련된 유명한 격언중 ‘숫자는 거짓말을 하지 않는다. 다만 거짓말 쟁이가 숫자를 이용할 뿐이다’ 라는 말이 있습니다. 사람들은 자신의 주장을 내세우기 위해 자신을 변호하는데 도움이 되는 유익한 것들과 그에 관련된 사항만 단편적으로 연결시켜 놓고 나머지는 애써 무시합니다. 그러나 보다 정확한 결론을 위해서는 모든 통계들을 고려해 봐야 합니다. 통계로 야구를 고찰할 때 가장 주의를 요하는 부문이기도 합니다.


통계의 위험을 최소화하기 위해 세이버 메트리션들은 끊임없이 서신을 교환하고, 문서를 발간하는 동시에 웹상의 토론을 통해 야구를 깊이 사랑하는 사람들을 살찌웁니다. 세이버 메트리션들의 가장 큰 장점은 오픈 마인드 입니다. 본즈와 루스의 상대적인 비교를 위해 가능한 많은 정보와 통계를 수집하고, 기록의 컨텍스트를 고려하여 만들어낸 결과물은 대중의 냉정한 검증을 거칩니다. (본기사의 下 편에서 관련사이트를 소개하겠지만, baseball primer 가 좋은 예라고 할수 있습니다.) 여기서 마지막 단계가 가장 중요합니다. 그들은 독자들과 함께 끊임없이 야구에 관한 모든 것을 고민합니다. 만약 당신이 OPS보다 훨씬 더 간단하고, 우수한 지표를 만든다면, 그들은 자신들의 최대 업적인 OPS조차 과감히 버릴 준비가 되어있습니다. 전통적인 야구인들의 고정관념이나 거짓우상이 없다는 것이 이들의 가장 큰 장점입니다. 결국 그들은 통계의 원초적인 위험을 오픈 마인드로 극복해 나간다고 볼수 있습니다.


물론 이러한 세이버 이론을 절대적으로 맹신하는 것도 대단히 편협한 사고입니다. 아무리 잘 발달된 통계로 뽑아낸 분석과, 날카로운 야구기사도 어찌보면 종이 쪼가리에 불과합니다. 어차피 야구는 인간이 하는 것입니다. 만약 실제 야구경기가 선수의 장래를 예측하는 빌제임스의 블록 2 / 6 시스템 (Brock 2 / 6 system)에 맞춰 흘러간다면 야구보는 재미는 분명 반감될 것입니다. 그러나 그것은 야구를 보는 또다른 즐거움을 선사합니다. 야구에 관한 본질적인 의문을 제시하고, 해답을 찾기위해 데이터를 수집하는 것은 대단히 유효한 방법론입니다.


세이버 메트릭스에 아쉬운 한가지는 과학적인 정확도와 완벽성을 추구할수록 일반팬들에게 주는 단순명료하고 친근한 미덕과는 거리가 멀어진다는 것입니다. 그러나 이것은 세이버 메트릭스의 맹점이라기 보다 미디어의 한계라고 보는 편이 타당합니다. 출루율과 장타율의 합으로 표현되는OPS가 여타의 득점공헌 툴에 반해 많은 결함을 가지고 있음에도 불구하고 대중화에 성공한 가장 큰 이유는 ‘간단, 명료함’ 에 있습니다. 적어도 인터넷을 다룰줄 아는 야구팬이라면 OPS를 모르는 사람은 이제 거의 없습니다. 그러나 아쉽게도 한국에서 OPS를 실시간으로 조회할 수 있는 기록실은 여전히 없는 실정입니다. 반드시 생소한 통계에 해당되는 이야기만은 아닐 것 입니다. 득점권 타율이나 투수의 득점지원과 같은 조건, 상황별 조회가 애초에 불가능한 KBO 기록실을 보고 야구를 깊게 이해하기란 여간 어려운 일이 아닙니다. 통계의 허상이란 여기에 있습니다.

[펀글] 세이버 매트릭스 (下 공식 & 관련 사이트)
     
  작성자 : 윤석준 (dreams@dreamsbaseball.com)  
  작성일 : 02/12/10 15:15 (2002/12/11 12:36)  
  카테고리 :  
  조회수 : 302  
  추천수 : 5  
     
  전편에 이어 세이버 매트릭스에 관한 스포츠서울 명예기자 최우근님의 글을 싣습니다.
기사 원문 보기




필자주 : 야구를 좋하시는 분들이라면 웹상에서 적어도 한번쯤은 세이버 메트릭스란 단어를 접하신 경험이 있으리라 생각됩니다. 그러나 정작 그것이 무엇인지 체계적으로 설명해 놓은 한국어로 쓰여진 글이나 자료는 거의 전무한 실정입니다. 이에 필자는 '세이버 메트릭스란 무엇인가?' 라는 기획기사를 준비했습니다. 上편은 야구 통계에 대한 이해와 오해를 다루고 있으며, 下 편에서는 '세이버 메트릭스 공식 & 관련 사이트’ 를 소개해 드립니다. 다소 지루하고 딱딱한 내용이 될수도 있으나 꼭 일독해 보시길 권해드립니다. 감사합니다.

(上) 야구 통계에 대한 이해와 오해 (기사보기)

(下) 세이버 메트릭스 공식 & 관련 사이트

Q 세이버 이론가들이 지적하는 클래식한 야구이론의 거짓 우상이나 고정관념에는 어떤 것들이 있나요?

많은 분들께서 아실만한 몇가지를 적어드리면,

- 타순은 생각보다 중요하지 않다.
- 1번타자의 알파와 오메가는 출루율이다. 웃기는 일은 아직도 많은 감독들이 도루가 출루율보다 중요한 숫자라 착각하는데 있다. 그보다 더 코메디는 1번타자가 홈런을 쳤다고 혀를 차는 사람들이다.
- 한시즌을 놓고 관찰했을때 타율에 비해 기형적으로 높은 클러치 타율을 기록하는 타자는 분명히 있다. 그러나 시즌내내 클러치한 상황은 많아야 100타석정도? 레귤러로 뛸수 있는 타자가 개막후 한달동안 소화한 타석수에도 못미친다. 그것이 우연이 아니라고 입증할수 있는 자료는 어디에도 없다.
- OPS는 신이 내린 선물이다.
- AL에서 7회 이전에 번트를 대는 팀은 바보다.
- 타자의 삼진은 별로 나쁠게 없지만, 투수에게 삼진은 절대적이다.
- 타율의 허상을 지적하는데 이제 지쳤다.
- 타고난 운동능력에 의존한 툴 플레이어의 허상에 속지말라. 유망주들의 그것은 실제 게임에서 거의 무용하다. 대신에 타석에서 가장 요긴하게 써먹을수 있는 plate discipline(선구안)을 가르쳐라. 물론 성공은 장담할수 없다.
- 구원투수의 역할은 대단히 중요하지만, 그보다 훨씬 중요한 것은 선발투수다.

Q 세이버 분석툴이 기존의 통계들 (ex ; 타율) 과 다른점은 무엇입니까?

세이버 매트릭스의 가장 일반적인 어플리케이션은 공격력을 평가하는 득점공헌 툴입니다. 타자의 득점공헌을 다루는 툴은 개념이나 계산법에 있어서 상당히 다양합니다. (ex: OPS, RC, XR, EqA, Vorp, BR등) 그러나 기본적인 공통분모는 공격의 2가지 능력을 측정하는 것에 바탕을 두고 있습니다. 베이스를 얻는 능력 (아웃당하지 않는 능력)과 더 많은 베이스를 전진하는 능력(루타+도루+희생타)이 그것입니다.

출루율과 장타율의 합으로 구성되는 OPS(on-base-percentage + slugging average) 역시 같은 맥락입니다. 기존의 타율이나 홈런 타점에 반해 OPS가 확실히 다른 점은 타율과 같은 득점과는 아무런 상관관계가 없는 단순회귀 분석에서 탈피해, 야구의 득점의 구조를 먼저 이해하고 그 다음 순서로 통계적기법을 적용했다는데 있습니다.

물론 OPS외에 다른 통계들은 다소 복잡합니다. 그러나 그 복잡함이라는 것도 실상은 위에서 언급한 공격의 2가지 능력을 측정하는 것에 변함이 없습니다. 가장 보편적인 측정방법으로 사용되는 빌제임스가 고안한 RC역시 기본버전은 “출루*전진 / 기회” 에 불과합니다. RC로 구한 팀 득점은 실제 득점과 거의 일치합니다. 세이버 툴은 이런 검증을 거친 후에야 비로소 개별 플레이어에게 적용되는 과정을 거치기에 충분히 믿을만 합니다.

Q 세이버 메트릭스 공식을 알고 싶은데요.

타자의 득점공헌과 성취도를 평가할수 있는 지표만도 엄청나게 많습니다. 그중 제법 알려진 몇가지만 정리해 봅니다.

BATTING STATS

RC (Bill James' Runs Created)
타자의 생산력을 평가하는 득점 창조력(공헌도) 입니다. 팀에 베이스를 추가시키는 공격행위는 +값을, 베이스나 공격기회를 날리는 행위는 -값을 가집니다. 위에서 언급했듯이 A는 출루, B는 전진, C는 공격 기회입니다. 지금껏 알려져 있는 RC 공식만도 24가지 이상에 달하는데, 베이직은 역시 (안타+볼넷)*루타 / 타석 입니다. 비교적 무난한 공식하나를 적어드리면,

A(출루)=안타+볼넷+사구-도실-병살
B(전진)=루타+.26*(볼넷+사구)+.53*(희생번트+희생플라이)+.64*(도루)-.03*(삼진)
C(기회)=타석

RUNS CREATED = ((A+2.4*C)*(B+3*C))/(9*C)-(0.9*C)

RC/27 (Runs Created Per 27 Outs)
27 아웃을 당할 동안의 RC, 다시 말해 팀 RC/27은 한경기 동안 이론적으로 올릴수 있는 점수를 말합니다. RC/27은 선수에게도 적용이 가능합니다. 가령 A 로드의 RC 27은 텍사스가 A 로드 9명으로 짜여진 팀이라 가정할때 경기당 뽑을수 있는 득점을 나타냅니다.

RC/27 = (27*RC) / (타수-안타+병살타+도실)

타석에서 아웃되지 않는 주루사등을 감안하여 27개의 아웃카운트 대신 25 아웃을 고려한 RC/25를 사용하기도 합니다.

XR (Jim Furtado's eXtrapolated Runs)
linear weighted formula(선형가중식)로 구한 타자의 득점 공헌도 입니다. RC와 비슷한 개념이지만, 정확도 면에서는 낫다고 알려져 있습니다.

XR = 1루타*.5 + 2루타*.72 + 3루타*1.04 + 홈런*1.44 + (사구+볼넷-고의사구)*.34 + 고의사구*.25 + 도루*.18 - 도실*.32 - (타수-안타-삼진)*.09 - 삼진*.098 - 병살타*.37 + 희생플라이*.37 + 희생번트*.04

Base Runs
David Smyth가 고안한 툴로 역시 타자의 득점 공헌을 평가합니다.

A = 안타 + 볼넷 - 고의사구 - 도실 - 홈런
B = 1.39*루타 - .58*안타 - 2.8*홈런 + .19*볼넷 - .19*고의사구 + 1.2*도루
C = 타수-안타
D = 홈런

Base Runs = A x B/(B + C) + D

OPS (Onbase Percentage Plus Slugging Percentage)
출루율과 장타율의 합으로 구성되는 가장 대중적인 세이버 툴로, 타자의 생산력을 나타냅니다.

출루율+장타율 (OPS) = OBP + SLG

SECA (Bill James' Secondary Average)
빌제임스가 1986년 고안한 타율의 허상을 보완한 개념입니다. 안타를 타수로 나누는 타율공식이 갖는 가장 큰 맹점은 장타와 단타의 가치를 동일시 하면서 볼넷은 인정하지 않는다는데 있습니다. SECA는 장타율의 가중치에 볼넷과 도루의 가치를 고려해 만든 수정타율 입니다. 개별 플레이어들에게 적용시킬 경우 .100에서 .600 사이를 기록하는 것이 보통입니다.

SECA = (2루타+2*3루타+3*홈런+볼넷+도루-도실) / 타수

ISO (Isolated Power)
장타율에서 인필드 싱글과 같은 단타를 제외한 타자의 순수한 파워배팅을 측정합니다.

ISO = 장타율- 타율 or ISO = (2루타+2*3루타+3*홈런) / 타수

Batting Runs (Pete Palmer's Linear Weights)
리그 평균적인 공격력을 가진 타자 보다 팀 득점에 공헌한 정도를 나타내는 선형 가중식 입니다. 공식에 따르면 완전히 리그 평균적인 타자들의 BR 값은 0으로 셋팅됩니다.

Batting Runs = .47*1루타 + .78*2루타 + 1.09*3루타 + 1.40*홈런 + .33*(볼넷+사구) + .30*도루 - .60*도실 - .25*(타수-안타) - .50*주루사

EqA (Equivalency Average)
클레이 데븐 포트가 고안한 공격 퍼포먼스 수치입니다. 활동시기의 리그 공격력과 구장효과를 고려한 '수정' 타율 버전으로 역사적으로 볼때 3할의 타율을 기록하는 선수는 거의 3할의 EqA값을 가집니다. 또한 리그 평균적인 수준의 선수들의 EqA는 일반적으로 .260정도에 해당합니다. EqA는 아웃당 EqR(RC와 비슷한 개념입니다)로 산출하지만 구지 직접 계산하실 필요는 없을듯 합니다. 시즌내내 baseballprospectus 온라인에서 실시간으로 조회가 가능합니다.

OW% (Bill James' Offensive Winning Percentage)
RC/27을 활용해서 공격력만으로 구한 팀의 기대 승률입니다. 가령 텍사스가 리그 평균적인 수준의 투수력과 수비력을 보유한 팀이라 가정하고, A 로드 9명으로 짜여진 텍사스 라인업에서 이론적으로 기대 할수 있는 승률 입니다.

OW% = (A 로드의 RC/27Outs)^2/[(게임당 리그 평균득점)^2+( A 로드의 RC/27Outs)^2]

PITCHING STATS

GS (game score)
1988년 빌제임스가 야구발췌에서 소개한 투수의 이벤트를 수치화한 능력입니다.

50점에서 출발해서

(+) 원아웃시 +1, 4회이후에 각 이닝을 소화할 때 마다 +2, 삼진 하나당 +1
(-) 한 개의 안타를 내줄 때 마다 -2, 볼넷 한 개는 -1, 1 자책점 시 -4, 비자책점은 -2 로 계산합니다.

한편 올시즌 AL는 페드로 마르티네스, NL는 랜디존슨이 GS 1위에 올랐습니다.

ERC (Bill James' Component ERA)
기존의 방어율 공식에서 투수가 허용한 자책점 대신 안타, 볼넷, 홈런을 몇가지 보정을 거쳐 만든 방어율입니다.

Estimated Component Earned Runs (CER) = {[(안타 - 홈런)*1.255 + 홈런*4]* .89 + (볼넷 + 고의사구 + 사구)* .56}*{사구 + 안타 + 볼넷}/ (상대타석)

ERC = CER*9 / 이닝 - .56

ERA+ (Adjusted Earned Run Average)
시대와 구장효과를 감안한 투수의 조정 방어율입니다.

리그 평균방어율 / (A 투수의 방어율 * 구장효과) * 100

ERA+는 리그 평균을 100으로 잡고 출발합니다. 만약 수정 방어율의 값이 120 이라면 A 투수는 리그평균보다 20% 뛰어난 방어율을 기록한 것이 됩니다.

PR (Pete Palmer's Pitching Runs
토탈 베이스볼의 통계로 리그의 평균적인 투수라면 해당 이닝 동안 허용했을 자책점과 A라는 투수가 실제 기록한 자책점의 차이를 말합니다. 구장효과를 고려하지 않을시,

Pitching Runs = (리그 평균 방어율-A의 방어율) * 투구이닝 / 9

TEAM STATS

Pythagorean Winning Percentage
빌제임스가 고안한 팀의 득실점으로 예상할수 있는 기대 승률입니다.

득점^2 / [(득점)^2+(실점)^2]

PF (Park Factor)
홈구장은 투수와 타자들의 성적에 매우 중요한 요소입니다. 이벤트별 파크팩터를 고려하기도 하지만 보통 득실점으로 구하는 방법이 가장 일반적입니다. 가령 올시즌 콜로라도는 쿠어스에서 498득점, 491실점을 기록했습니다. 산동네에서만 도합 989점이 난셈입니다. 한편 원정경기에서는 280득점, 407실점으로 총 687점을 주고 받았습니다. 이때 쿠어스의 파크 팩터는 홈에서의 득실점 (989)을 원정 득실점(687) 으로 나눈 값-약 1.44에 해당합니다. 한편 올시즌 래리워커는 1.023의 OPS를 기록했습니다. 여기서 1년중 절반은 원정경기를 하기 때문에 쿠어스의 구장효과 1.44의 절반에 해당하는 1.22로 워커의 OPS를 나누면 수정 OPS는 .838로 다운됩니다. 이것은 가장 심플한 모형입니다. 보다 정확한 파크팩터 계산을 위해서는 리그 평균의 가상의 중립구장을 만들고, 각각의 이벤트별 구장효과를 대조하면서 뽑은 최소 3년 이상의 자료가 쌓여야 한다고 합니다. 물론 파크팩터를 일일이 구할 필요는 없습니다. (기사 말미에 소개되어 있는) 잘 발달된 미디어가 알아서 비교적 신뢰할수 있는 합리적인 수치를 제공해줍니다.

Q 이런 통계들은 어디에서 조회할수 있습니까?

비교적 널리 알려진 분석툴은 손쉽게 조회가 가능합니다. 타자의 생산력을 다루는 OPS, 피타고리언 승률, GS등은 ESPN에서 조회할수 있습니다. 이외에도 Baseball Prospectus Online에서는 EqA를 비롯 RAA, RAR등의 타격툴과 BP 팀이 개발한 피칭리포트를 보실수 있습니다. 물론 방대한 야구 DB를 보유한 Baseball-Reference에서도 다양한 조회가 가능합니다.


클릭하시면 baseball-reference로 이동합니다.


Q 이렇게 정형화된 공식이 세이버 메트릭스의 전부인가요?

그렇지 않습니다. 타율공식 안타 / 타수를 안다고 해서 야구를 전부 이해했다고 말할수 없듯이, 이런 분석툴이 세이버 메트릭스의 전부인양 생각하는 것은 매우 위험합니다. 그것은 단지 하나의 도구일 뿐입니다. 전통적인 야구인들이 타자를 평가할 때 타율, 타점, 홈런을 들여다 보듯이 세이버 메트리션들이 야구에 관한 본질적인 물음에 접근하고 야구를 더 잘 이해하기 위해 사용되는 도구 이상도 그 이하도 아닙니다. 상편에서 언급했듯이 A 로드의 OPS가 당장에 어떤 의미를 갖는 것은 아닙니다. 이보다 훨씬 중요한 것은 A 로드가 과연 MVP에서 물을 먹은 이유가 타당한가? 라는 사실에 고민하고 그것을 통계로 증명해 내는 것입니다.

Q 대표적인 세이버 메트리션들은 누가 있으며, 가볼만한 사이트는 어디인가요?

SABR (미국야구연구회)는 태동당시 야구계에 직접 종사하지 않는 순수 야구팬들이 모여 조직했으나, 그들의 이론은 더 이상 마이너가 아닙니다. Baseball Prospectus 2002년 판을 본 오클랜드의 천재단장 매직 빈은 모든 스카우팅 가이드의 표본이라 극찬 했으며, ESPN의 피터 게몬스 역시 단장들이 이 책을 읽었다면, 적어도 목이 달아나는 일은 없었을 거라 말합니다.

오늘날의 야구통계에 가장 지대한 공헌을 한 사람은 아마도 야구발췌(Baseball Abstract)로 유명한 빌 제임스일 것입니다. 일전에 우리 김병현 선수의 가치를 NL 3위로 평가한 승리 공헌(Win Shares 사진)식을 고안한 인물이기도 합니다. 이외에도 베이스볼 스터프의 짐푸르타도, 토탈 베이스볼의 피트파머, 스탯 헤드의 키이스 우너, 빅 배드 베이스볼의 돈 말콤, 다이아몬드 마인드 베이스볼의 톰 티테트, 제임스 프레이저를 비롯한 프리머의 필진들이 있습니다.

추천할만한 웹 사이트는 클레이 데븐 포트의 변환 통계로 유명한 Baseball Prospectus 온라인 , 생각하는 야구팬을 위한 Baseball Primer, 야구기록에 관한 모든 것 Baseball-Reference, ESPN의 칼럼니스트 Rob Neyer의 글을 권하고 싶습니다. 그리고 세상에 통계로 야구를 보다 깊게 이해하길 원하는 모든 야구팬들의 글입니다.

Ps. 글을 쓰면서 느낀 점은 우선은 KBO에 대한 불만입니다. 당장에 역대 골든글러브 수상자를 검색할수도 없습니다. 95년 OB와 롯데의 한국 시리즈 6차전 선발투수가 누군지, 시리즈 최종전적이 몇 대 몇이었는지, 기억이 가물해지면 어디다 물어봐야 하나요? 메이저리그의 경우 Baseball-Reference 에서는 1분이면 충분한 일입니다.
긴글 읽어주셔서 감사합니다. 다음 기사에서 뵙겠습니다.
진보블로그 공감 버튼트위터로 리트윗하기페이스북에 공유하기딜리셔스에 북마크