득점의 기대값(Expected Goals, 추후 xG라 표기)이란 개념은 2004년 아이스하키의 슈팅 퀄리티에 대한 논문에서부터 시작되었다. 그 이후로 아이스하키에서의 개념은 축구 분석에도 응용되어 적용되기 시작했고 일부 전문가들은 이에 대해서 꾸준하게 논의하고 있다.
xG는 실제 슈팅을 바탕으로 계산하는 값이다. 피치에서 슈팅이 시도되는 위치를 고려하며 그 슈팅이 발로한 것인지 머리로한 것인지도 구분한다. 또한 그 슈팅이 동료의 어시스트를 받아 시도한 것인지 개인이 만들어낸 득점 찬스인지도 구별한다. 그렇게 각 경기에서의 슈팅을 구분짓고 이전까지의 데이터를 통해 계산된 각 슈팅의 득점 확률을 적용한다. 즉 과거에 특정 위치에서 슈팅이 시도되었을 때의 확률값은 우리가 이미 가지고 있는 수치고 이번 경기에서 똑같은 상황이 발생했다면 그 슈팅에 기존의 확률값을 적용한다. 그렇게 슈팅이 득점으로 연결될 확률값을 모두 더한 것이 xG 데이터이다. 그렇게 우리는 슈팅 기록을 모아서 한 경기에서 나올 수 있는 득점의 예상값을 따져볼 수 있는데 지금부터 논의할 것들 역시도 이와 똑같은 원리를 공유한다.
그러나 지금까지 우리는 각 슈팅의 확률에만 관심을 두고 있었지 그 확률이 어떤 분포를 보이고 있는지에 대해서는 무관심했다. 그래서 이번 글을 통해서 조금 더 심도있는 이야기와 각각의 xg(전체 xG와 구분짓기 위해서 각 슈팅의 확률을 xg로 표현)가 합쳐져 전체 xG를 어떻게 만드는가에 대해서 이야기하려고 한다.
앞으로의 논의를 진행하기 위해서 직접 프리킥과 페널티킥을 제외한 29,800번의 프리미어 리그 슈팅을 수집했다. 29,800번의 슈팅으로 프리미어 리그에서 총 2,732골이 나왔고 득점 전환률은 9.2%였다. 따라서 우리는 평균적으로 슈팅 11번으로 1골을 기록할 수 있다는 확률을 구할 수 있다. 그러나 이렇게 결론 내리는건 잘못되었다. 각 슈팅의 확률에 대한 분포를 그려보았을 때, 각 슈팅의 확률은 굉장히 큰 값의 왜도(오른쪽 꼬리)를 가지고 있다.
각 슈팅의 확률밀도함수는 위의 그림과 같이 나타나는데 가장 빈번하게 발생하는 타입의 슈팅이 1득점으로 연결되기 위해서는 총 37번의 시도가 있어야 한다고 말하고 있다. 또한 흥미로운 점은 유럽 상위 리그에서 모두 비슷한 추세를 보인다는 것이다. 이 바로 아래 소개될 확률밀도함수는 유럽 상위 5개 리그의 밀도함수로 리그별 차이가 거의 없다고 해석할 수 있다.
또한 우리는 개별 선수의 데이터를 전체 평균과도 비교해볼 수 있다. 지금부터는 프리미어 리그 선수 전체의 평균과 찰리 아담, 루이스 수아레즈를 각각 비교하려고 한다.
찰리 아담의 자료는 그가 미드필더임에도 불구하고 굉장히 확률낮은 슈팅을 자주 시도한다는 것을 이야기하고 있다. 아담이 시도하는 각 슈팅의 밀도함수는 리그 평균보다 피크가 더 심하다. 즉 아담은 리그 평균치 선수보다 낮은 득점 확률을 가지는 슈팅을 빈번하게 시도한다고 할 수 있다. 한편 수아레즈는 밀도함수가 굉장히 완만한 형태를 보이고 있고 슈팅의 모험성이 낮다고 볼 수 있으며 평균치 선수보다 훨씬 득점 확률이 높은 순간에 슈팅을 때린다고 볼 수 있다.
모든 xg를 더해서 계산한 xG와 달리 xg 데이터는 선수의 슈팅 선택에 대한 통찰을 할 수 있는 자료다. 우리는 밀도함수를 통해서 선수의 슈팅 선별 패턴을 보다 명확하게 구체화할 수 있다. 마찬가지로 팀끼리도 비교할 수 있다. 지금부터 볼 자료는 아스날과 뉴캐슬의 기록인데 여기서 우리는 아스날이 확률낮은 슈팅을 더 적게 시도한다는걸 확인할 수 있다.
자료를 요약해 간단하는 것도 또 다른 좋은 비교법일 것이다. 찰리 아담의 평균 xg값은 0.056이고 루이스 수아레즈는 0.110의 값을 가진다. 평균값을 통해서 우리는 두 선수의 밀도함수가 서로 다른 이야기를 담고 있다는 정보를 '일부' 확인할 수 있다. 그러나 각 밀도함수의 왜도값이 다르기 때문에 두 선수의 슈팅 차이를 직관적으로는 확인할 수 없게 된다.
따라서 우리는 xg의 분포를 대표격으로 확인할 수 있는 단 하나의 숫자를 고안해내야만 한다. 그리고 여기서 나는 'percentage of high-return shots'을 용어를 앞서 우리가 평균값으로 두 선수의 차이를 설명한 것처럼 각 분포의 차이를 설명할 수 있는 대표적인 값으로 설정하고자 한다. 여기서 말하는 high-return이란 슈팅을 20번 시도했을 때 1골 이상 기대할 수 있는 슈팅이며 반대로 low-return은 슈팅을 20번 시도했을 때의 기대값이 1골이 채 되지 못하는 슈팅을 말한다. 유럽 상위 리그에서 'high-return shots'이 차지하는 비중은 다음과 같다.
프리미어 리그 : 52.1%
세리에 A : 49.4%
분데스리가 : 51.1%
라 리가 : 50.9%
리그 앙 : 49.8%
앞서 말했듯이 나는 29,800개의 프리미어 리그 슈팅 데이터를 분석했는데 low-return shot은 총 14,805회였고 high-return shot은 14,995회였다. 각 슈팅을 통해 나온 득점은 전자가 419골 후자가 2,313골이었다. 따라서 high-return shot은 평균적으로 슈팅당 0.154골이란 기대값을 가지며 low-return shot(p=0.028)보다 5배 높은 생산성을 지닌다고 말할 수 있다.
확률이 높은 슈팅이 전체 득점의 85%를 차지하고 확률 낮은 슈팅이 전체의 15%를 차지하는 것은 어쩌면 당연한 결과일 수도 있다. 우리가 위에서 사례로 봤던 수아레즈의 경우는 high-return shot이 전체 슈팅의 67%였고 아담은 29%에 불과했다. 우리는 이렇게 대표할 수 있는 수치를 통해서 두 선수의 슈팅 전략이 다르다는 것을 확인할 수 있다.
팀 레벨에서 아스날과 맨체스터 유나이티드가 high-return shot 비중을 전체의 58%로 가져가고 있다. 첼시는 50%이고 뉴캐슬은 43%이다. 뉴캐슬이 확률높은 슈팅을 앞에서 언급한 두 클럽보다 적게 가져가는 것은 어쩌면 가진 자원의 한계 때문일 수도 있다. 평균적으로 low-return shot이 이뤄지는 지점은 상대의 골문에서 19.6m가 떨어진 지점이다. (일반적으로 페널티 박스 바깥 지점이다) 한편 high-return shot이 시도되는 평균 지점은 골문에서부터 10.3m로 (일반적으로 페널티 박스 안쪽 지점이다) 즉 우리가 9.3m만 더 전진해서 슈팅할 수 있다면, 우리는 그 슈팅의 득점 연결 가능성을 무려 5배나 높일 수 있게 된다. 확률 낮은 슈팅을 시도할 것인가? 아니면 더 만들어가서 확률을 높일 것인가 그것은 선택의 자유다. 우리가 전진해야할 9.3m 지점에서의 패스 성공률이 62%에서 75%를 오간다고 하자. 가장 낮은 확률값으로 계산한다면 확률은 이렇게 된다.
Sequence | 성공 확률 | 득점 확률 |
low-return shot | 0.028 | 0.028 |
pass+high-return shot | 0.62 * 0.154 | 0.095 |
pass+pass+high-return shot | 0.62 * 0.62 * 0.154 | 0.059 |
이론적으로도 두번의 패스 후 슈팅을 시도하더라도 확률은 그냥 때리는 것보다 여전히 2배 높일 수 있다. 물론 이것도 팀 동료가 패스를 받아줄 수 있는 적절한 위치에 있다는 가정이 성립되어야만 한다. 만약에 그럴 수만 있다면 패스를 통해 상대 페널티 박스로 조금 더 전진하는 것이 low-return shot을 시도하는 것보다 훨씬 낫다고 볼 수 있다. 어쩌면 이것이 공격을 시도하는 상황에서 최대한 선수들을 박스 안으로 투입하려는 이유이기도 할 것이다.
출처 : http://business-analytic.co.uk/blog/uncategorized/the-importance-of-high-return-shots/
'Football Stats' 카테고리의 다른 글
슈팅 기록을 활용한 경기 예측 (0) | 2016.06.04 |
---|---|
슈팅의 퀄리티를 높여 호날두 이적에 대처했던 맨체스터 유나이티드 (0) | 2016.06.04 |
슈팅 기록을 활용한 xG 추정 및 활용 (0) | 2016.06.04 |
무승부 발생 가능성을 예측하다 (0) | 2016.06.01 |
득점의 포아송 분포를 활용한 경기 결과 예측 (0) | 2016.06.01 |