야구에서 활용되는 피타고리안 승률은 빌 제임스가 고안한 것으로 팀의 득점과 실점을 바탕으로 얼마나 승리할 수 있는지를 예측하는 것이다. 피타고리안 승률로 예측한 값보다 적게 승리하는 팀은 운이 없었다고 볼 수 있고 기대값을 뛰어넘는 (outperforming) 클럽은 운이 좋았다고 할 수 있다. 


기대할 수 있는 승리 수 = 득점^2 / (득점^2 + 실점^2)


야구에서 널리 알려진 이 공식은 야구의 승률을 예측하는데 있어서 굉장히 잘 들어맞고 있고 미식축구, 농구에서도 굉장히 성공적으로 활용되고 있다. 그러나 축구 경기에서는 이 공식이 딱히 잘 들어맞지 않고 있는 형국이다. 아래 순위표는 2011/2012시즌 프리미어 리그의 실제 승점과 피타고리안 승점 (예측값)을 나타낸 것이다. 기대값과 실제 승점의 뚜렷한 차이를 한 번 느껴보라. 빌 제임스의 공식은 상위권팀의 성적을 고평가하고 (over-predicting) 하위권팀의 성적을 저평가 (under-predicting) 한다.


TeamGFGAPtsPythag Pts
Manchester City932989104
Manchester United893389100
Arsenal74497079
Tottenham Hotspur66416982
Newcastle United56516562
Chelsea65466476
Everton50405670
Liverpool47405266
Fulham48515254
West Bromwich Albion45524749
Swansea City44514749
Norwich City52664744
Sunderland45464556
Stoke City36534536
Wigan Athletic42624336
Aston Villa37533837
Queens Park Rangers43663734
Bolton Wanderers46773630
Blackburn Rovers48783131
Wolverhampton Wanderers40822522
RMSE8.4


우리는 오차의 크기를 평균 제곱근 오차(RMSE)를 통해 구할 수 있고 이를 통해 우리는 피타고리안 승점 예측을 통한 RMSE가 8.4점임을 확인할 수 있다. 그렇다면 우리는 보다 정확한 예측을 위해서 RMSE값을 낮출 필요가 있다. 그러기 위해서 우리는 앞서 소개한 공식에서 각 계수의 수치를 변형해보는 시도를 해볼 수 있다. 아래 첨부하는 그래프는 계수의 값을 0.1에서 3으로 변화시키면서 나타나는 RMSE값의 변화를 표현한 것이다. 이를 통해 우리는 계수값이 1.35일 때, RMSE가 5.75로 가장 낮은 수치를 기록한다는 것을 확인했다.







이제 그 다음 스텝으로 가서 우리는 각각의 계수를 어떻게 변화시켰을 때 더 유효한 예측을 할 수 있을지에 대해서 논의해봐야 한다. 이는 더 어려운 최적화 문제해결을 요구하지만 최소제곱법을 통해 우리는 각각의 계수를 순서대로 1.39, 1.43, 0.98로 할 경우 더 최적화된 계수를 선정할 수 있다. 그러나 불행히도 RMSE는 고작 0.1 줄어든 5.65를 기록하게 된다.


여전히 예측값은 대략적으로 승점 6점을 벗어나게 된다. 이제는 왜 에러가 이렇게 크게 발생하는지에 대해서 논의해봐야할 것이고 더 정확한 예측법은 없는지에 대해서 이야기해야할 것이다.


피타고리안 승률이 오차를 발생시키는 가장 주된 원인으로 축구에서 무승부의 발생 가능성을 언급하고 싶다. 피타고리안 예측법은 오직 승리와 패배를 예측할 뿐인데 왜 그러냐면 만약 무득점을 펼칠 경우 0점을 가져간다고 가정하는 방법이기 때문이다. 그러나 0:0 무승부도 존재하기 때문에 우리는 반드시 이 가능성을 포함해야만 할 것이다.


하워드 해밀턴이 보다 정교한 피타고리안 승점 계산법을 만들었으나 이를 이해하기 위해서는 수학적인 이해력이 필요하고 대다수 축구팬이 사용하기에는 적합하지 못하다. 그래서 필자는 기존의 빌 제임스가 고안한 방정식을 살짝 틀어서 정확성을 높이려고 한다. 마찬가지로 최소제곱법을 활용하여 무승부 발생 가능성까지 포함시킨 결과 2011/2012시즌의 RMSE를 4.04까지 낮출 수 있었다. 이렇게 만들어낸 새로운 방정식을 MPE 방정식이라고 하겠다. (Martin Pythagorean Expectation) 아래는 지난 10시즌간 프리미어 리그 피타고리안 승점의 RMSE 값이다.










MPE 방법을 통한 예측 승점과 실제 승점을 좌표점으로 표현해보았고 이를 통해 얼마나 정밀한 예측을 하고 있는지에 대해서 시각화해보았다. 회귀분석을 통해 얻어낸 결정계수 R^2값이 0.938로 실제 승점과 예측 승점의 상당한 관계가 성립함을 확인할 수가 있었다. 









MPE 방법으로 예측 승점을 구하는 방법은 다음과 같다. 하워드 해밀턴의 방법보다는 덜 정교하지만 그의 방법처럼 엄청나게 식을 어렵게 만들지 않고서 꽤나 정밀한 예측을 할 수 있다는 점은 긍정적이다.







출처 : http://pena.lt/y/2012/12/03/applying-the-pythagorean-expectation-to-football-part-two/




by Martin Eastwood


앞서 우리는 피타고리안 승점에 (정확히는 MPE 계산법) 대하여 논의했는데 이제부터 관심을 가져야할 사항은 예측 결과를 정확히 만들기 위해서 어느 수준까지의 데이터가 필요한가이다.


시즌의 어느 시점부터 예측 결과와 실제 결과가 일치하는 경향을 보이는지 조사하기 위해서 2011/2012시즌의 맨체스터 시티, 스완지 시티, 울버햄턴 원더러스의 프리미어 리그 경기 자료를 활용했다. 3팀을 선택한 이유는 각각이 리그 최상위팀, 리그 중위권, 리그 하위권을 대표하기 때문이다. 매주 시행된 프리미어 리그 경기 결과를 활용하며 이 3클럽의 시즌 마지막 예상 승점의 변화 정도를 계산했다. 아래 있는 자료는 각 라운드별로 계산된 MPE 승점이 실제 최종 승점과 어느 정도로 다른가에 대해 말해준다. 






위의 결과를 살펴보면, 맨체스터 시티는 딱 3경기만에 나름대로 정확한 예측을 할 수 있었다. 고작 3경기 지났을 뿐인데 평균 제곱근 오차(RMSE)가 단지 1.96에 지나지 않았다. 우리는 단 3경기 만에 MPE 방정식을 통해서 맨체스터 시티의 최종 승점을 정확하게 예측해냈다. 오차의 크기는 승점 2점이 채 되지 않는다.


스완지 시티 같은 경우는 맨체스터 시티와는 다른 모습을 보였는데 이들은 리그 첫 4경기동안 골을 기록하지 못했다. MPE 방정식은 타당한 승점 예측을 위해서 반드시 득점을 필요로 한다. 스완지 시티는 5라운드인 웨스트 브롬위치 알비언전에서 3골을 넣으며 3:0 승리를 거두었고 그 때부터 예측 결과는 상당히 안정화 되었으며 6경기 이후부턴 실제 결과와 오차 범위 3점 내에서 예측값이 이동했다.


한편, 울버햄턴은 스완지와는 완전히 반대의 상황에 놓였다. 울버햄턴이 시즌 첫 3경기에서 2승 1무의 성적을 거두면서 그 때까지 울버햄턴의 최종 승점 예측은 83점까지 치솟았다. 그러나 이후 울버햄턴이 5연패를 기록하면서 상황은 그들에게 굉장히 안좋게 돌아갔고 예측 승점은 결국 30점까지 떨어졌다. 결국 울버햄턴은 승점 25점을 기록하면서 리그를 최하위로 마감했다.


전반적으로 MPE 방정식은 굉장히 안정적인 결과 예측값을 제공하며 그런 예측이 가능하기 위해서는 반드시 그 팀의 득점을 필요로 한다. 그래프에서 확인할 수 있듯이 이 예측법은 시즌 초기부터 굉장히 정교한 결과를 제공한다. 




출처 : http://pena.lt/y/2013/01/02/how-early-in-the-season-can-pythagorean-predictions-be-made/