각팀이 경기에서 기록하는 득점 수는 포아송 분포를 따르게 된다. 아래 그래프를 통해서 확인할 수 있는데 포아송 분포는 무득점 가능성을 다소 과소평가하고 있으며 1~3골이 기록될 가능성을 조금 더 높게 예상하고 있다. 그러나 4골 이상부터는 다시 포아송 분포의 예상값이 실제 값보다 작다. 그러나 그 차이는 우리가 무시하고 넘어갈 수 있을정도로 작다고 생각된다.
우선 홈과 원정에서 프리미어 리그 클럽들의 득점과 실점 기록 평균을 구해 공격 계수, 수비 계수 수치를 만들었고 특정 매치에 2개의 팀의 각각의 계수를 대입하여 예측할 수 있는 스코어를 계산해 보았다. 이를 토대로 아래에 있는 포아송 분포를 따르는 확률 매트릭스를 만들어낼 수 있었다.
Goals | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
0 | 1.96 | 4.08 | 4.24 | 2.94 | 1.53 | 0.64 | 0.22 | 0.07 | 0.02 |
1 | 3.63 | 7.56 | 7.86 | 5.45 | 2.83 | 1.18 | 0.41 | 0.12 | 0.03 |
2 | 3.36 | 7.00 | 7.27 | 5.04 | 2.62 | 1.09 | 0.38 | 0.11 | 0.03 |
3 | 2.08 | 4.32 | 4.49 | 3.11 | 1.62 | 0.67 | 0.23 | 0.07 | 0.02 |
4 | 0.96 | 2.00 | 2.08 | 1.44 | 0.75 | 0.31 | 0.11 | 0.03 | 0.01 |
5 | 0.36 | 0.74 | 0.77 | 0.53 | 0.28 | 0.12 | 0.04 | 0.01 | 0.00 |
6 | 0.11 | 0.23 | 0.24 | 0.16 | 0.09 | 0.04 | 0.01 | 0.00 | 0.00 |
7 | 0.03 | 0.06 | 0.06 | 0.04 | 0.02 | 0.01 | 0.00 | 0.00 | 0.00 |
8 | 0.01 | 0.01 | 0.01 | 0.01 | 0.01 | 0.00 | 0.00 | 0.00 | 0.00 |
과거의 기록을 토대로 만들어야 하기 때문에 리그 시작 후 5주가 지난 후에서야 이 모델을 활용할 수가 있었다. 또 아래의 표는 포아송 분포를 이용한 홈팀의 승리 가능성을 예상한 것인데 이를 통해 계산한 값과 베팅업체 Betfair의 값을 비교해보시라.
ome | Away | Prediction | Probability (%) | Odds | Betfair | Result |
Swansea | Everton | HOME | 56.3 | 1.78 | 3.35 | AWAY |
Chelsea | Stoke City | HOME | 63.4 | 1.58 | 1.39 | HOME |
Southampton | Aston Villa | AWAY | 49.2 | 2.03 | 3.1 | HOME |
West Brom | Reading | HOME | 41.1 | 2.43 | 1.82 | HOME |
West Ham | Sunderland | HOME | 35.7 | 2.80 | 2.24 | DRAW |
Wigan | Fulham | AWAY | 40.1 | 2.49 | 3.25 | AWAY |
Liverpool | Man Utd | AWAY | 75.6 | 1.32 | 2.82 | AWAY |
Newcastle | Norwich | HOME | 82.9 | 1.21 | 1.84 | HOME |
Man City | Arsenal | AWAY | 37.1 | 2.70 | 1.78 | DRAW |
Tottenham | QPR | HOME | 41.1 | 2.43 | 1.51 | HOME |
포아송 분포를 통한 경기 예측은 매주 30~60% 가량의 경기 결과를 정확하게 예측해내고 있다. 평균적으로 46%의 정확성을 기록 중인데 우리가 임의로 찍어서 얻어내는 확률 33%보다는 높은 값이다.
시즌이 더 진행되면서 자료가 쌓일 경우 더욱 정확한 예측이 가능할 것이라 생각한다. 또한 계산 모델에서 더 발전이 있을 수 있다. 현재 사용하고 있는 방식은 각팀의 득점을 독립적인 사건으로 생각하고 있지만 한 팀이 계속 득점할수록 상대팀의 득점 확률은 줄어드는 상호작용이 포함되는 모델이 개발될 경우, 더욱 정확한 결과를 예측해낼 수 있을 것이다. 아직까지 포아송 분포를 활용한 경기 예측은 신뢰할 수 있는 수준이 아니다.
출처 : http://pena.lt/y/2012/10/29/using-poisson-to-predict-football-matches/
'Football Stats' 카테고리의 다른 글
슈팅 기록을 활용한 xG 추정 및 활용 (0) | 2016.06.04 |
---|---|
무승부 발생 가능성을 예측하다 (0) | 2016.06.01 |
프리미어 리그 탑4의 80%는 임금 지출 순위가 결정한다? (0) | 2016.06.01 |
클린 시트(Clean Sheets)가 순위에 미치는 영향력은? (0) | 2016.06.01 |
TSR과 성적의 상관관계? (0) | 2016.06.01 |