슈팅 기록을 활용한 xG 추정 및 활용

Football Stats 2016. 6. 4. 15:50 Posted by Seolskjaer




시간이 흐를수록 축구에 대한 분석기법이 발전하고 있고 이에 대해서 관심이 있던 사람이라면 득점의 기대값 추정 모델 (Expected goals model)에 대해서 한 번은 들어보았을 것이다. 그 용어는 줄여서 보통 ExpG 혹은 xG 라고 표현되는데 이것은 슈팅에서 비롯되는 모델링이다. ExpG는 경기 중에 발생하는 선수들과 팀의 슈팅을 근거로 이론적인 방법을 통해 득점을 유추해내는 방법이다. 


각 슈팅의 최종 결과물은 0 혹은 1 (그러니까 득점으로 연결되지 않는 슈팅과 득점으로 연결되는 슈팅) 이다. 그러나 각 팀 혹은 선수에 대해서 분석할 때 단순한 결과만을 가지고 분석하는 것은 옳지 않다. x팀은 55골을 넣었고 y팀은 60골을 넣었다는 단순한 사실만으로 비교하는 것은 충분하지 못하다. 왜 그런 결과가 발생한 것인가에 대해서 질문을 던저봐야하며 x팀이 더 적게 슈팅을 시도했는지, 아니면 y팀이 더 확실한 찬스를 만들어서 5골을 더 넣은 것인지 분석해보아야 한다.


그렇다면 각 기회의 확실함 정도는 어떻게 구별할 수 있는가? 우리는 과거의 슈팅 기록을 바탕으로 ExpG 을 예측한다. 모든 슈팅은 동일하지 않다. 따라서 비슷한 그룹끼리 묶어서 그 가치를 측정하는데 여기서 우리는 과거 비슷한 위치에서 시도된 슈팅들의 득점 전환율을 참고하여 ExpG을 계산한다. 이렇게 경기 도중 시도된 슈팅의 각 가치를 계산하여 팀 혹은 선수의 ExpG 수치를 도출해낼 수 있다. 


그러나 축구에는 다양한 변수가 존재하는데 슈팅을 그렇게 하나의 덩어리로 분류할 수 있을까? ExpG 은 굉장히 다양한 변수를 고려해 계산되는 값이다. 시도되는 모든 슈팅의 디테일한 위치를 적용시킬 뿐만 아니라 공이 선수에게 어떤 형태로 전달되는지 (스루 패스인지 크로스인지 등등...) 슈팅을 발로 시도하는지 머리로 시도하는지도 고려되어 각각의 수치로 전환된다. 또한 슈팅이 유효 슈팅인지, 상대 수비에 의해서 블락되었는지도 고려된다. 이처럼 모델링을 다양하게 할 수 있고 훨씬 다양한 변수를 활용하여 예측을 할 수 있다. 하지만 모든 모델링에 있어서 제외되는 사항은 바로 '상대팀 수비수의 포지셔닝'이다. 최근에는 경기 상황을 모델링에 포함시키려는 움직임도 시도되고 있다. (스코어 상태에 따라 팀의 밸런스가 깨지게 되고 그로인해 득점의 가능성은 또 변하게 된다)


지금 소개할 모델링은 오직 유효 슈팅과 슈팅이 시도되는 위치만으로 ExpG을 계산한다. 46가지의 구역과 페널티킥, 직접 프리킥 총 48가지 케이스로 구분한다. 너무나도 간단한 방법의 모델링이지만 처음으로 이 개념을 소개하는데 있어서 쉬운 모델링이 적합할 것 같다. 지난 4시즌간 누적되온 13,000여개의 유효 슈팅을 종합해 활용할 것이다. 







앞서 언급했던 것처럼 13,000번의 유효 슈팅은 46개의 구역, 페널티킥, 직접 프리킥으로 각각 구분될 수 있고 각 구역에서 시도되는 유효 슈팅 기록을 토대로 평균적인 득점을 유추할 수 있다. 예를 들자면, 14번 구역에서 시도되는 유효 슈팅은 이론적으로 0.59골의 가치를 지닌다. 만약 A팀이 5번 구역에서 유효 슈팅을 시도하면 0.91골을 기대할 수 있다. 이제 팀 혹은 선수가 시도한 슈팅들의 기대값을 모두 더하면 각 팀과 선수의 ExpG 값을 구할 수 있다.


회귀분석이라는 수학적 테크닉을 활용하여 지난 4시즌간 80개팀의 퍼포먼스를 분석한 ExpG 데이터가 얼마나 유용한지 증명해주려고 한다. 우선 실제 골득실과 ExpG 방법으로 예측한 골득실을 좌표로 표현해 점을 찍고 회귀분석을 통해 R^2값을 구한다. 즉 우리가 알아보고자 하는 것은 실제 골득실과 유효 슈팅이 시도되는 위치의 상관성이 있는가이다. R^2값이 1에 가까울수록 그 상관성이 강하고 0에 가까울수록 그 상관성이 약하다고 할 수 있다. 여기서 우리는 회귀분석을 통해 R^2값 0.878을 얻을 수 있다.






Prozone은 골득실이 장기적인 관점에서 팀의 성적을 예측하는데 굉장히 좋은 지표임을 언급했었고 실제 리그 테이블에도 그렇게 반영된다. 만약 기대 골득실값 (Expected Goal Difference, ExpGD)와 실제 골득실이 강한 상관성을 가진다면, 결국 ExpGD로 실제 테이블 순위도 예측할 수 있다는 말이 된다.


맨체스터 유나이티드의 ExpGD는 조사한 4시즌 중 첫3시즌간 수치가 20대였으나 올시즌에는 12 미만의 값을 기록 중이다. (2014년 5월 기준, 즉 데이빗 모예스 시절) 반면에 맨체스터 시티의 첫번째 시즌 기록은 ExpGD가 2를 간신히 넘는 수치였으나 3시즌 사이에 그 값이 30~40대로 완전히 늘어났다. 그리고 시티는 그 3시즌 사이에 2차례나 리그 우승을 차지했다. 한편 리버풀의 ExpGD는 10 후반에서 출발하여 2013/2014시즌 30대까지 상승했다. 






그렇다면 한 시즌의 ExpGD는 그 다음 시즌의 ExpGD와 연관성이 있을까? 마찬가지로 회귀분석을 돌렸을 때, R^2값이 0.7082가 나왔다. 아웃라이어 하나가 돋보이는데 2010/2011 시즌에서 2011/2012시즌으로 넘어가는 맨체스터 시티의 기록이 가장 두드러진다. 


또 그렇다면, 한 시즌의 ExpGD는 다음시즌의 실제 골득실과 어느 정도의 연관성을 지닐 것인가? 이것도 마찬가지로 회귀분석을 통해 확인할 수 있다. 다음시즌 실제 골득실과 연관성이 다음시즌 ExpGD 보다는 작다는 것을 확인할 수 있다. 시즌 사이의 명확한 상관성 연구를 위해서는 앞에서 언급했던 것처럼 더 많은 데이터를 활용해야할 것으로 보인다. 






출처 : https://differentgame.wordpress.com/2014/05/19/a-shooting-model-an-expglanation-and-application/