야구에서 활용되는 피타고리안 승률은 빌 제임스가 고안한 것으로 팀의 득점과 실점을 바탕으로 얼마나 승리할 수 있는지를 예측하는 것이다. 피타고리안 승률로 예측한 값보다 적게 승리하는 팀은 운이 없었다고 볼 수 있고 기대값을 뛰어넘는 (outperforming) 클럽은 운이 좋았다고 할 수 있다. 


기대할 수 있는 승리 수 = 득점^2 / (득점^2 + 실점^2)


야구에서 널리 알려진 이 공식은 야구의 승률을 예측하는데 있어서 굉장히 잘 들어맞고 있고 미식축구, 농구에서도 굉장히 성공적으로 활용되고 있다. 그러나 축구 경기에서는 이 공식이 딱히 잘 들어맞지 않고 있는 형국이다. 아래 순위표는 2011/2012시즌 프리미어 리그의 실제 승점과 피타고리안 승점 (예측값)을 나타낸 것이다. 기대값과 실제 승점의 뚜렷한 차이를 한 번 느껴보라. 빌 제임스의 공식은 상위권팀의 성적을 고평가하고 (over-predicting) 하위권팀의 성적을 저평가 (under-predicting) 한다.


TeamGFGAPtsPythag Pts
Manchester City932989104
Manchester United893389100
Arsenal74497079
Tottenham Hotspur66416982
Newcastle United56516562
Chelsea65466476
Everton50405670
Liverpool47405266
Fulham48515254
West Bromwich Albion45524749
Swansea City44514749
Norwich City52664744
Sunderland45464556
Stoke City36534536
Wigan Athletic42624336
Aston Villa37533837
Queens Park Rangers43663734
Bolton Wanderers46773630
Blackburn Rovers48783131
Wolverhampton Wanderers40822522
RMSE8.4


우리는 오차의 크기를 평균 제곱근 오차(RMSE)를 통해 구할 수 있고 이를 통해 우리는 피타고리안 승점 예측을 통한 RMSE가 8.4점임을 확인할 수 있다. 그렇다면 우리는 보다 정확한 예측을 위해서 RMSE값을 낮출 필요가 있다. 그러기 위해서 우리는 앞서 소개한 공식에서 각 계수의 수치를 변형해보는 시도를 해볼 수 있다. 아래 첨부하는 그래프는 계수의 값을 0.1에서 3으로 변화시키면서 나타나는 RMSE값의 변화를 표현한 것이다. 이를 통해 우리는 계수값이 1.35일 때, RMSE가 5.75로 가장 낮은 수치를 기록한다는 것을 확인했다.







이제 그 다음 스텝으로 가서 우리는 각각의 계수를 어떻게 변화시켰을 때 더 유효한 예측을 할 수 있을지에 대해서 논의해봐야 한다. 이는 더 어려운 최적화 문제해결을 요구하지만 최소제곱법을 통해 우리는 각각의 계수를 순서대로 1.39, 1.43, 0.98로 할 경우 더 최적화된 계수를 선정할 수 있다. 그러나 불행히도 RMSE는 고작 0.1 줄어든 5.65를 기록하게 된다.


여전히 예측값은 대략적으로 승점 6점을 벗어나게 된다. 이제는 왜 에러가 이렇게 크게 발생하는지에 대해서 논의해봐야할 것이고 더 정확한 예측법은 없는지에 대해서 이야기해야할 것이다.


피타고리안 승률이 오차를 발생시키는 가장 주된 원인으로 축구에서 무승부의 발생 가능성을 언급하고 싶다. 피타고리안 예측법은 오직 승리와 패배를 예측할 뿐인데 왜 그러냐면 만약 무득점을 펼칠 경우 0점을 가져간다고 가정하는 방법이기 때문이다. 그러나 0:0 무승부도 존재하기 때문에 우리는 반드시 이 가능성을 포함해야만 할 것이다.


하워드 해밀턴이 보다 정교한 피타고리안 승점 계산법을 만들었으나 이를 이해하기 위해서는 수학적인 이해력이 필요하고 대다수 축구팬이 사용하기에는 적합하지 못하다. 그래서 필자는 기존의 빌 제임스가 고안한 방정식을 살짝 틀어서 정확성을 높이려고 한다. 마찬가지로 최소제곱법을 활용하여 무승부 발생 가능성까지 포함시킨 결과 2011/2012시즌의 RMSE를 4.04까지 낮출 수 있었다. 이렇게 만들어낸 새로운 방정식을 MPE 방정식이라고 하겠다. (Martin Pythagorean Expectation) 아래는 지난 10시즌간 프리미어 리그 피타고리안 승점의 RMSE 값이다.










MPE 방법을 통한 예측 승점과 실제 승점을 좌표점으로 표현해보았고 이를 통해 얼마나 정밀한 예측을 하고 있는지에 대해서 시각화해보았다. 회귀분석을 통해 얻어낸 결정계수 R^2값이 0.938로 실제 승점과 예측 승점의 상당한 관계가 성립함을 확인할 수가 있었다. 









MPE 방법으로 예측 승점을 구하는 방법은 다음과 같다. 하워드 해밀턴의 방법보다는 덜 정교하지만 그의 방법처럼 엄청나게 식을 어렵게 만들지 않고서 꽤나 정밀한 예측을 할 수 있다는 점은 긍정적이다.







출처 : http://pena.lt/y/2012/12/03/applying-the-pythagorean-expectation-to-football-part-two/