Search

'xg'에 해당되는 글 2건

  1. 2016.06.04 확률 높은 슈팅의 중요성
  2. 2016.06.04 슈팅 기록을 활용한 xG 추정 및 활용

확률 높은 슈팅의 중요성

Football Stats 2016. 6. 4. 16:00 Posted by Seolskjaer



득점의 기대값(Expected Goals, 추후 xG라 표기)이란 개념은 2004년 아이스하키의 슈팅 퀄리티에 대한 논문에서부터 시작되었다. 그 이후로 아이스하키에서의 개념은 축구 분석에도 응용되어 적용되기 시작했고 일부 전문가들은 이에 대해서 꾸준하게 논의하고 있다.


xG는 실제 슈팅을 바탕으로 계산하는 값이다. 피치에서 슈팅이 시도되는 위치를 고려하며 그 슈팅이 발로한 것인지 머리로한 것인지도 구분한다. 또한 그 슈팅이 동료의 어시스트를 받아 시도한 것인지 개인이 만들어낸 득점 찬스인지도 구별한다. 그렇게 각 경기에서의 슈팅을 구분짓고 이전까지의 데이터를 통해 계산된 각 슈팅의 득점 확률을 적용한다. 즉 과거에 특정 위치에서 슈팅이 시도되었을 때의 확률값은 우리가 이미 가지고 있는 수치고 이번 경기에서 똑같은 상황이 발생했다면 그 슈팅에 기존의 확률값을 적용한다. 그렇게 슈팅이 득점으로 연결될 확률값을 모두 더한 것이 xG 데이터이다. 그렇게 우리는 슈팅 기록을 모아서 한 경기에서 나올 수 있는 득점의 예상값을 따져볼 수 있는데 지금부터 논의할 것들 역시도 이와 똑같은 원리를 공유한다. 


그러나 지금까지 우리는 각 슈팅의 확률에만 관심을 두고 있었지 그 확률이 어떤 분포를 보이고 있는지에 대해서는 무관심했다. 그래서 이번 글을 통해서 조금 더 심도있는 이야기와 각각의 xg(전체 xG와 구분짓기 위해서 각 슈팅의 확률을 xg로 표현)가 합쳐져 전체 xG를 어떻게 만드는가에 대해서 이야기하려고 한다. 


앞으로의 논의를 진행하기 위해서 직접 프리킥과 페널티킥을 제외한 29,800번의 프리미어 리그 슈팅을 수집했다. 29,800번의 슈팅으로 프리미어 리그에서 총 2,732골이 나왔고 득점 전환률은 9.2%였다. 따라서 우리는 평균적으로 슈팅 11번으로 1골을 기록할 수 있다는 확률을 구할 수 있다. 그러나 이렇게 결론 내리는건 잘못되었다. 각 슈팅의 확률에 대한 분포를 그려보았을 때, 각 슈팅의 확률은 굉장히 큰 값의 왜도(오른쪽 꼬리)를 가지고 있다. 







각 슈팅의 확률밀도함수는 위의 그림과 같이 나타나는데 가장 빈번하게 발생하는 타입의 슈팅이 1득점으로 연결되기 위해서는 총 37번의 시도가 있어야 한다고 말하고 있다. 또한 흥미로운 점은 유럽 상위 리그에서 모두 비슷한 추세를 보인다는 것이다. 이 바로 아래 소개될 확률밀도함수는 유럽 상위 5개 리그의 밀도함수로 리그별 차이가 거의 없다고 해석할 수 있다.





또한 우리는 개별 선수의 데이터를 전체 평균과도 비교해볼 수 있다. 지금부터는 프리미어 리그 선수 전체의 평균과 찰리 아담, 루이스 수아레즈를 각각 비교하려고 한다.







찰리 아담의 자료는 그가 미드필더임에도 불구하고 굉장히 확률낮은 슈팅을 자주 시도한다는 것을 이야기하고 있다. 아담이 시도하는 각 슈팅의 밀도함수는 리그 평균보다 피크가 더 심하다. 즉 아담은 리그 평균치 선수보다 낮은 득점 확률을 가지는 슈팅을 빈번하게 시도한다고 할 수 있다. 한편 수아레즈는 밀도함수가 굉장히 완만한 형태를 보이고 있고 슈팅의 모험성이 낮다고 볼 수 있으며 평균치 선수보다 훨씬 득점 확률이 높은 순간에 슈팅을 때린다고 볼 수 있다.


모든 xg를 더해서 계산한 xG와 달리 xg 데이터는 선수의 슈팅 선택에 대한 통찰을 할 수 있는 자료다. 우리는 밀도함수를 통해서 선수의 슈팅 선별 패턴을 보다 명확하게 구체화할 수 있다. 마찬가지로 팀끼리도 비교할 수 있다. 지금부터 볼 자료는 아스날과 뉴캐슬의 기록인데 여기서 우리는 아스날이 확률낮은 슈팅을 더 적게 시도한다는걸 확인할 수 있다.





자료를 요약해 간단하는 것도 또 다른 좋은 비교법일 것이다. 찰리 아담의 평균 xg값은 0.056이고 루이스 수아레즈는 0.110의 값을 가진다. 평균값을 통해서 우리는 두 선수의 밀도함수가 서로 다른 이야기를 담고 있다는 정보를 '일부' 확인할 수 있다. 그러나 각 밀도함수의 왜도값이 다르기 때문에 두 선수의 슈팅 차이를 직관적으로는 확인할 수 없게 된다.


따라서 우리는 xg의 분포를 대표격으로 확인할 수 있는 단 하나의 숫자를 고안해내야만 한다. 그리고 여기서 나는 'percentage of high-return shots'을 용어를 앞서 우리가 평균값으로 두 선수의 차이를 설명한 것처럼 각 분포의 차이를 설명할 수 있는 대표적인 값으로 설정하고자 한다. 여기서 말하는 high-return이란 슈팅을 20번 시도했을 때 1골 이상 기대할 수 있는 슈팅이며 반대로 low-return은 슈팅을 20번 시도했을 때의 기대값이 1골이 채 되지 못하는 슈팅을 말한다. 유럽 상위 리그에서 'high-return shots'이 차지하는 비중은 다음과 같다.


프리미어 리그 : 52.1%

세리에 A : 49.4%

분데스리가 : 51.1%

라 리가 : 50.9%

리그 앙 : 49.8%


앞서 말했듯이 나는 29,800개의 프리미어 리그 슈팅 데이터를 분석했는데 low-return shot은 총 14,805회였고 high-return shot은 14,995회였다. 각 슈팅을 통해 나온 득점은 전자가 419골 후자가 2,313골이었다. 따라서 high-return shot은 평균적으로 슈팅당 0.154골이란 기대값을 가지며 low-return shot(p=0.028)보다 5배 높은 생산성을 지닌다고 말할 수 있다.


확률이 높은 슈팅이 전체 득점의 85%를 차지하고 확률 낮은 슈팅이 전체의 15%를 차지하는 것은 어쩌면 당연한 결과일 수도 있다. 우리가 위에서 사례로 봤던 수아레즈의 경우는 high-return shot이 전체 슈팅의 67%였고 아담은 29%에 불과했다. 우리는 이렇게 대표할 수 있는 수치를 통해서 두 선수의 슈팅 전략이 다르다는 것을 확인할 수 있다.


팀 레벨에서 아스날과 맨체스터 유나이티드가 high-return shot 비중을 전체의 58%로 가져가고 있다. 첼시는 50%이고 뉴캐슬은 43%이다. 뉴캐슬이 확률높은 슈팅을 앞에서 언급한 두 클럽보다 적게 가져가는 것은 어쩌면 가진 자원의 한계 때문일 수도 있다. 평균적으로 low-return shot이 이뤄지는 지점은 상대의 골문에서 19.6m가 떨어진 지점이다. (일반적으로 페널티 박스 바깥 지점이다) 한편 high-return shot이 시도되는 평균 지점은 골문에서부터 10.3m로 (일반적으로 페널티 박스 안쪽 지점이다) 즉 우리가 9.3m만 더 전진해서 슈팅할 수 있다면, 우리는 그 슈팅의 득점 연결 가능성을 무려 5배나 높일 수 있게 된다. 확률 낮은 슈팅을 시도할 것인가? 아니면 더 만들어가서 확률을 높일 것인가 그것은 선택의 자유다. 우리가 전진해야할 9.3m 지점에서의 패스 성공률이 62%에서 75%를 오간다고 하자. 가장 낮은 확률값으로 계산한다면 확률은 이렇게 된다.



Sequence

성공 확률

득점 확률

low-return shot

0.028

0.028

pass+high-return shot

0.62 * 0.154

0.095

pass+pass+high-return shot

0.62 * 0.62 * 0.154

0.059



이론적으로도 두번의 패스 후 슈팅을 시도하더라도 확률은 그냥 때리는 것보다 여전히 2배 높일 수 있다. 물론 이것도 팀 동료가 패스를 받아줄 수 있는 적절한 위치에 있다는 가정이 성립되어야만 한다. 만약에 그럴 수만 있다면 패스를 통해 상대 페널티 박스로 조금 더 전진하는 것이 low-return shot을 시도하는 것보다 훨씬 낫다고 볼 수 있다. 어쩌면 이것이 공격을 시도하는 상황에서 최대한 선수들을 박스 안으로 투입하려는 이유이기도 할 것이다.






출처 : http://business-analytic.co.uk/blog/uncategorized/the-importance-of-high-return-shots/

슈팅 기록을 활용한 xG 추정 및 활용

Football Stats 2016. 6. 4. 15:50 Posted by Seolskjaer




시간이 흐를수록 축구에 대한 분석기법이 발전하고 있고 이에 대해서 관심이 있던 사람이라면 득점의 기대값 추정 모델 (Expected goals model)에 대해서 한 번은 들어보았을 것이다. 그 용어는 줄여서 보통 ExpG 혹은 xG 라고 표현되는데 이것은 슈팅에서 비롯되는 모델링이다. ExpG는 경기 중에 발생하는 선수들과 팀의 슈팅을 근거로 이론적인 방법을 통해 득점을 유추해내는 방법이다. 


각 슈팅의 최종 결과물은 0 혹은 1 (그러니까 득점으로 연결되지 않는 슈팅과 득점으로 연결되는 슈팅) 이다. 그러나 각 팀 혹은 선수에 대해서 분석할 때 단순한 결과만을 가지고 분석하는 것은 옳지 않다. x팀은 55골을 넣었고 y팀은 60골을 넣었다는 단순한 사실만으로 비교하는 것은 충분하지 못하다. 왜 그런 결과가 발생한 것인가에 대해서 질문을 던저봐야하며 x팀이 더 적게 슈팅을 시도했는지, 아니면 y팀이 더 확실한 찬스를 만들어서 5골을 더 넣은 것인지 분석해보아야 한다.


그렇다면 각 기회의 확실함 정도는 어떻게 구별할 수 있는가? 우리는 과거의 슈팅 기록을 바탕으로 ExpG 을 예측한다. 모든 슈팅은 동일하지 않다. 따라서 비슷한 그룹끼리 묶어서 그 가치를 측정하는데 여기서 우리는 과거 비슷한 위치에서 시도된 슈팅들의 득점 전환율을 참고하여 ExpG을 계산한다. 이렇게 경기 도중 시도된 슈팅의 각 가치를 계산하여 팀 혹은 선수의 ExpG 수치를 도출해낼 수 있다. 


그러나 축구에는 다양한 변수가 존재하는데 슈팅을 그렇게 하나의 덩어리로 분류할 수 있을까? ExpG 은 굉장히 다양한 변수를 고려해 계산되는 값이다. 시도되는 모든 슈팅의 디테일한 위치를 적용시킬 뿐만 아니라 공이 선수에게 어떤 형태로 전달되는지 (스루 패스인지 크로스인지 등등...) 슈팅을 발로 시도하는지 머리로 시도하는지도 고려되어 각각의 수치로 전환된다. 또한 슈팅이 유효 슈팅인지, 상대 수비에 의해서 블락되었는지도 고려된다. 이처럼 모델링을 다양하게 할 수 있고 훨씬 다양한 변수를 활용하여 예측을 할 수 있다. 하지만 모든 모델링에 있어서 제외되는 사항은 바로 '상대팀 수비수의 포지셔닝'이다. 최근에는 경기 상황을 모델링에 포함시키려는 움직임도 시도되고 있다. (스코어 상태에 따라 팀의 밸런스가 깨지게 되고 그로인해 득점의 가능성은 또 변하게 된다)


지금 소개할 모델링은 오직 유효 슈팅과 슈팅이 시도되는 위치만으로 ExpG을 계산한다. 46가지의 구역과 페널티킥, 직접 프리킥 총 48가지 케이스로 구분한다. 너무나도 간단한 방법의 모델링이지만 처음으로 이 개념을 소개하는데 있어서 쉬운 모델링이 적합할 것 같다. 지난 4시즌간 누적되온 13,000여개의 유효 슈팅을 종합해 활용할 것이다. 







앞서 언급했던 것처럼 13,000번의 유효 슈팅은 46개의 구역, 페널티킥, 직접 프리킥으로 각각 구분될 수 있고 각 구역에서 시도되는 유효 슈팅 기록을 토대로 평균적인 득점을 유추할 수 있다. 예를 들자면, 14번 구역에서 시도되는 유효 슈팅은 이론적으로 0.59골의 가치를 지닌다. 만약 A팀이 5번 구역에서 유효 슈팅을 시도하면 0.91골을 기대할 수 있다. 이제 팀 혹은 선수가 시도한 슈팅들의 기대값을 모두 더하면 각 팀과 선수의 ExpG 값을 구할 수 있다.


회귀분석이라는 수학적 테크닉을 활용하여 지난 4시즌간 80개팀의 퍼포먼스를 분석한 ExpG 데이터가 얼마나 유용한지 증명해주려고 한다. 우선 실제 골득실과 ExpG 방법으로 예측한 골득실을 좌표로 표현해 점을 찍고 회귀분석을 통해 R^2값을 구한다. 즉 우리가 알아보고자 하는 것은 실제 골득실과 유효 슈팅이 시도되는 위치의 상관성이 있는가이다. R^2값이 1에 가까울수록 그 상관성이 강하고 0에 가까울수록 그 상관성이 약하다고 할 수 있다. 여기서 우리는 회귀분석을 통해 R^2값 0.878을 얻을 수 있다.






Prozone은 골득실이 장기적인 관점에서 팀의 성적을 예측하는데 굉장히 좋은 지표임을 언급했었고 실제 리그 테이블에도 그렇게 반영된다. 만약 기대 골득실값 (Expected Goal Difference, ExpGD)와 실제 골득실이 강한 상관성을 가진다면, 결국 ExpGD로 실제 테이블 순위도 예측할 수 있다는 말이 된다.


맨체스터 유나이티드의 ExpGD는 조사한 4시즌 중 첫3시즌간 수치가 20대였으나 올시즌에는 12 미만의 값을 기록 중이다. (2014년 5월 기준, 즉 데이빗 모예스 시절) 반면에 맨체스터 시티의 첫번째 시즌 기록은 ExpGD가 2를 간신히 넘는 수치였으나 3시즌 사이에 그 값이 30~40대로 완전히 늘어났다. 그리고 시티는 그 3시즌 사이에 2차례나 리그 우승을 차지했다. 한편 리버풀의 ExpGD는 10 후반에서 출발하여 2013/2014시즌 30대까지 상승했다. 






그렇다면 한 시즌의 ExpGD는 그 다음 시즌의 ExpGD와 연관성이 있을까? 마찬가지로 회귀분석을 돌렸을 때, R^2값이 0.7082가 나왔다. 아웃라이어 하나가 돋보이는데 2010/2011 시즌에서 2011/2012시즌으로 넘어가는 맨체스터 시티의 기록이 가장 두드러진다. 


또 그렇다면, 한 시즌의 ExpGD는 다음시즌의 실제 골득실과 어느 정도의 연관성을 지닐 것인가? 이것도 마찬가지로 회귀분석을 통해 확인할 수 있다. 다음시즌 실제 골득실과 연관성이 다음시즌 ExpGD 보다는 작다는 것을 확인할 수 있다. 시즌 사이의 명확한 상관성 연구를 위해서는 앞에서 언급했던 것처럼 더 많은 데이터를 활용해야할 것으로 보인다. 






출처 : https://differentgame.wordpress.com/2014/05/19/a-shooting-model-an-expglanation-and-application/