슈팅 기록을 활용한 경기 예측

Football Stats 2016. 6. 4. 16:48 Posted by Seolskjaer




이 글에 앞서서 우리는 득점 수의 포아송 분포를 통해 경기 예측을 시도했다. 하지만 포아송 분포를 통한 예측은 수치적으로 경기를 예측하기 위한 모델로 활용하기 어려운 결과값을 기록했다. 이번에는 슈팅 수를 기반으로 경기를 예측하는 시도를 해보려고 한다.


득점이 아닌 슈팅 수를 활용해 예측하는 이유는 몇가지 있는데 우선 슈팅과 득점은 매우 밀접한 관계를 지니고 있다는 것이다. 둘째로 득점은 반드시 슈팅이 이루어진 상황에서 나오기 마련이고 모든 슈팅이 득점으로 기록되지 않는만큼 득점보다 슈팅 수가 더 큰 데이터량을 가지고 있다는 것이다. 셋째로는 경기 당 발생하는 슈팅 수가 아래 그래프를 통해 확인할 수 있듯이 정규 분포표와 유사하다는 점이다. 데이터가 정규분포를 따르면 그만큼 통계적으로 테스트를 하는데 있어서 유용한 점이 있다. 아래는 2009~2012년 사이 프리미어 리그에서 경기 당 슈팅 수를 기록한 그래프이다.








경기를 예측할 수 있는 모델을 설정하기 위해서 우리가 첫번째로 해야할 것은 어떤 변수가 가장 타당한가를 결정하는 것이다. 회귀 분석을 통하여 구한 득점과 슈팅 수의 상관 계수(R-square)값은 0.62며 유효 슈팅과의 상관 계수는 0.76, 상대팀이 몸으로 막아낸 슈팅은 0.59, 빗나간 슈팅은 0.32 값을 기록하게 되었다. 







그러나 개별 경기에서 연관성은 현저히 떨어진다. 시즌 전체를 놓고 본다면, 여러 변수들이 미치는 영향력을 최소화시킬 수 있으나 단일 경기에서는 행운과 같은 변수들이 상당히 큰 역할을 하기 마련이다. 유효 슈팅이 많은 클럽이 궁극적으로 시즌이 끝날 때에는 더 많은 득점을 기록하게 될 것이라 생각하게 되고 선수의 기술이 행운을 압살하는 결과를 마련할지 몰라도 단일 경기에서만큼은 항상 그렇지가 않다. 행운이 섞인 득점을 기록한 팀이 90분간 쏟아지는 상대의 슈팅을 막아내 승리를 차지하는 모습을 많이 본 적이 있지 않은가?


다른 변수들을 다 제쳐두고 오로지 득점에 강한 상관관계를 지닌 유효 슈팅만 따져보기로 했다. 앞서 언급했던 것처럼 슈팅 수는 정규분포 형태를 보이는데 유효 슈팅은 0에 다소 치우친 결과를 보이고 있다. 








여전히 단일 경기에서 유효 슈팅 수와 득점의 관계는 시즌 전체, 혹은 20~30경기에서 지니는 연관성보다 작다. 그래도 전반적으로 유효 슈팅을 활용한 모델이 약 43%의 정확성을 지니고 있다. 무작위로 선택하는 33%의 확률보다는 높은 것이다. 그러나 여전히 43%의 예측 정확성은 널리 활용하기에 적절치 않은 수준이다. 그러나 여전히 더 효과적인 모델 개발이 진행중인 상황이고 향후 더 정확한 예측이 가능한 모델이 나올 것이 분명하다.



출처 : http://pena.lt/y/2013/01/25/predicting-football-matches-using-shots-on-target/