확률 높은 슈팅의 중요성

Football Stats 2016. 6. 4. 16:00 Posted by Seolskjaer



득점의 기대값(Expected Goals, 추후 xG라 표기)이란 개념은 2004년 아이스하키의 슈팅 퀄리티에 대한 논문에서부터 시작되었다. 그 이후로 아이스하키에서의 개념은 축구 분석에도 응용되어 적용되기 시작했고 일부 전문가들은 이에 대해서 꾸준하게 논의하고 있다.


xG는 실제 슈팅을 바탕으로 계산하는 값이다. 피치에서 슈팅이 시도되는 위치를 고려하며 그 슈팅이 발로한 것인지 머리로한 것인지도 구분한다. 또한 그 슈팅이 동료의 어시스트를 받아 시도한 것인지 개인이 만들어낸 득점 찬스인지도 구별한다. 그렇게 각 경기에서의 슈팅을 구분짓고 이전까지의 데이터를 통해 계산된 각 슈팅의 득점 확률을 적용한다. 즉 과거에 특정 위치에서 슈팅이 시도되었을 때의 확률값은 우리가 이미 가지고 있는 수치고 이번 경기에서 똑같은 상황이 발생했다면 그 슈팅에 기존의 확률값을 적용한다. 그렇게 슈팅이 득점으로 연결될 확률값을 모두 더한 것이 xG 데이터이다. 그렇게 우리는 슈팅 기록을 모아서 한 경기에서 나올 수 있는 득점의 예상값을 따져볼 수 있는데 지금부터 논의할 것들 역시도 이와 똑같은 원리를 공유한다. 


그러나 지금까지 우리는 각 슈팅의 확률에만 관심을 두고 있었지 그 확률이 어떤 분포를 보이고 있는지에 대해서는 무관심했다. 그래서 이번 글을 통해서 조금 더 심도있는 이야기와 각각의 xg(전체 xG와 구분짓기 위해서 각 슈팅의 확률을 xg로 표현)가 합쳐져 전체 xG를 어떻게 만드는가에 대해서 이야기하려고 한다. 


앞으로의 논의를 진행하기 위해서 직접 프리킥과 페널티킥을 제외한 29,800번의 프리미어 리그 슈팅을 수집했다. 29,800번의 슈팅으로 프리미어 리그에서 총 2,732골이 나왔고 득점 전환률은 9.2%였다. 따라서 우리는 평균적으로 슈팅 11번으로 1골을 기록할 수 있다는 확률을 구할 수 있다. 그러나 이렇게 결론 내리는건 잘못되었다. 각 슈팅의 확률에 대한 분포를 그려보았을 때, 각 슈팅의 확률은 굉장히 큰 값의 왜도(오른쪽 꼬리)를 가지고 있다. 







각 슈팅의 확률밀도함수는 위의 그림과 같이 나타나는데 가장 빈번하게 발생하는 타입의 슈팅이 1득점으로 연결되기 위해서는 총 37번의 시도가 있어야 한다고 말하고 있다. 또한 흥미로운 점은 유럽 상위 리그에서 모두 비슷한 추세를 보인다는 것이다. 이 바로 아래 소개될 확률밀도함수는 유럽 상위 5개 리그의 밀도함수로 리그별 차이가 거의 없다고 해석할 수 있다.





또한 우리는 개별 선수의 데이터를 전체 평균과도 비교해볼 수 있다. 지금부터는 프리미어 리그 선수 전체의 평균과 찰리 아담, 루이스 수아레즈를 각각 비교하려고 한다.







찰리 아담의 자료는 그가 미드필더임에도 불구하고 굉장히 확률낮은 슈팅을 자주 시도한다는 것을 이야기하고 있다. 아담이 시도하는 각 슈팅의 밀도함수는 리그 평균보다 피크가 더 심하다. 즉 아담은 리그 평균치 선수보다 낮은 득점 확률을 가지는 슈팅을 빈번하게 시도한다고 할 수 있다. 한편 수아레즈는 밀도함수가 굉장히 완만한 형태를 보이고 있고 슈팅의 모험성이 낮다고 볼 수 있으며 평균치 선수보다 훨씬 득점 확률이 높은 순간에 슈팅을 때린다고 볼 수 있다.


모든 xg를 더해서 계산한 xG와 달리 xg 데이터는 선수의 슈팅 선택에 대한 통찰을 할 수 있는 자료다. 우리는 밀도함수를 통해서 선수의 슈팅 선별 패턴을 보다 명확하게 구체화할 수 있다. 마찬가지로 팀끼리도 비교할 수 있다. 지금부터 볼 자료는 아스날과 뉴캐슬의 기록인데 여기서 우리는 아스날이 확률낮은 슈팅을 더 적게 시도한다는걸 확인할 수 있다.





자료를 요약해 간단하는 것도 또 다른 좋은 비교법일 것이다. 찰리 아담의 평균 xg값은 0.056이고 루이스 수아레즈는 0.110의 값을 가진다. 평균값을 통해서 우리는 두 선수의 밀도함수가 서로 다른 이야기를 담고 있다는 정보를 '일부' 확인할 수 있다. 그러나 각 밀도함수의 왜도값이 다르기 때문에 두 선수의 슈팅 차이를 직관적으로는 확인할 수 없게 된다.


따라서 우리는 xg의 분포를 대표격으로 확인할 수 있는 단 하나의 숫자를 고안해내야만 한다. 그리고 여기서 나는 'percentage of high-return shots'을 용어를 앞서 우리가 평균값으로 두 선수의 차이를 설명한 것처럼 각 분포의 차이를 설명할 수 있는 대표적인 값으로 설정하고자 한다. 여기서 말하는 high-return이란 슈팅을 20번 시도했을 때 1골 이상 기대할 수 있는 슈팅이며 반대로 low-return은 슈팅을 20번 시도했을 때의 기대값이 1골이 채 되지 못하는 슈팅을 말한다. 유럽 상위 리그에서 'high-return shots'이 차지하는 비중은 다음과 같다.


프리미어 리그 : 52.1%

세리에 A : 49.4%

분데스리가 : 51.1%

라 리가 : 50.9%

리그 앙 : 49.8%


앞서 말했듯이 나는 29,800개의 프리미어 리그 슈팅 데이터를 분석했는데 low-return shot은 총 14,805회였고 high-return shot은 14,995회였다. 각 슈팅을 통해 나온 득점은 전자가 419골 후자가 2,313골이었다. 따라서 high-return shot은 평균적으로 슈팅당 0.154골이란 기대값을 가지며 low-return shot(p=0.028)보다 5배 높은 생산성을 지닌다고 말할 수 있다.


확률이 높은 슈팅이 전체 득점의 85%를 차지하고 확률 낮은 슈팅이 전체의 15%를 차지하는 것은 어쩌면 당연한 결과일 수도 있다. 우리가 위에서 사례로 봤던 수아레즈의 경우는 high-return shot이 전체 슈팅의 67%였고 아담은 29%에 불과했다. 우리는 이렇게 대표할 수 있는 수치를 통해서 두 선수의 슈팅 전략이 다르다는 것을 확인할 수 있다.


팀 레벨에서 아스날과 맨체스터 유나이티드가 high-return shot 비중을 전체의 58%로 가져가고 있다. 첼시는 50%이고 뉴캐슬은 43%이다. 뉴캐슬이 확률높은 슈팅을 앞에서 언급한 두 클럽보다 적게 가져가는 것은 어쩌면 가진 자원의 한계 때문일 수도 있다. 평균적으로 low-return shot이 이뤄지는 지점은 상대의 골문에서 19.6m가 떨어진 지점이다. (일반적으로 페널티 박스 바깥 지점이다) 한편 high-return shot이 시도되는 평균 지점은 골문에서부터 10.3m로 (일반적으로 페널티 박스 안쪽 지점이다) 즉 우리가 9.3m만 더 전진해서 슈팅할 수 있다면, 우리는 그 슈팅의 득점 연결 가능성을 무려 5배나 높일 수 있게 된다. 확률 낮은 슈팅을 시도할 것인가? 아니면 더 만들어가서 확률을 높일 것인가 그것은 선택의 자유다. 우리가 전진해야할 9.3m 지점에서의 패스 성공률이 62%에서 75%를 오간다고 하자. 가장 낮은 확률값으로 계산한다면 확률은 이렇게 된다.



Sequence

성공 확률

득점 확률

low-return shot

0.028

0.028

pass+high-return shot

0.62 * 0.154

0.095

pass+pass+high-return shot

0.62 * 0.62 * 0.154

0.059



이론적으로도 두번의 패스 후 슈팅을 시도하더라도 확률은 그냥 때리는 것보다 여전히 2배 높일 수 있다. 물론 이것도 팀 동료가 패스를 받아줄 수 있는 적절한 위치에 있다는 가정이 성립되어야만 한다. 만약에 그럴 수만 있다면 패스를 통해 상대 페널티 박스로 조금 더 전진하는 것이 low-return shot을 시도하는 것보다 훨씬 낫다고 볼 수 있다. 어쩌면 이것이 공격을 시도하는 상황에서 최대한 선수들을 박스 안으로 투입하려는 이유이기도 할 것이다.






출처 : http://business-analytic.co.uk/blog/uncategorized/the-importance-of-high-return-shots/

슈팅 기록을 활용한 xG 추정 및 활용

Football Stats 2016. 6. 4. 15:50 Posted by Seolskjaer




시간이 흐를수록 축구에 대한 분석기법이 발전하고 있고 이에 대해서 관심이 있던 사람이라면 득점의 기대값 추정 모델 (Expected goals model)에 대해서 한 번은 들어보았을 것이다. 그 용어는 줄여서 보통 ExpG 혹은 xG 라고 표현되는데 이것은 슈팅에서 비롯되는 모델링이다. ExpG는 경기 중에 발생하는 선수들과 팀의 슈팅을 근거로 이론적인 방법을 통해 득점을 유추해내는 방법이다. 


각 슈팅의 최종 결과물은 0 혹은 1 (그러니까 득점으로 연결되지 않는 슈팅과 득점으로 연결되는 슈팅) 이다. 그러나 각 팀 혹은 선수에 대해서 분석할 때 단순한 결과만을 가지고 분석하는 것은 옳지 않다. x팀은 55골을 넣었고 y팀은 60골을 넣었다는 단순한 사실만으로 비교하는 것은 충분하지 못하다. 왜 그런 결과가 발생한 것인가에 대해서 질문을 던저봐야하며 x팀이 더 적게 슈팅을 시도했는지, 아니면 y팀이 더 확실한 찬스를 만들어서 5골을 더 넣은 것인지 분석해보아야 한다.


그렇다면 각 기회의 확실함 정도는 어떻게 구별할 수 있는가? 우리는 과거의 슈팅 기록을 바탕으로 ExpG 을 예측한다. 모든 슈팅은 동일하지 않다. 따라서 비슷한 그룹끼리 묶어서 그 가치를 측정하는데 여기서 우리는 과거 비슷한 위치에서 시도된 슈팅들의 득점 전환율을 참고하여 ExpG을 계산한다. 이렇게 경기 도중 시도된 슈팅의 각 가치를 계산하여 팀 혹은 선수의 ExpG 수치를 도출해낼 수 있다. 


그러나 축구에는 다양한 변수가 존재하는데 슈팅을 그렇게 하나의 덩어리로 분류할 수 있을까? ExpG 은 굉장히 다양한 변수를 고려해 계산되는 값이다. 시도되는 모든 슈팅의 디테일한 위치를 적용시킬 뿐만 아니라 공이 선수에게 어떤 형태로 전달되는지 (스루 패스인지 크로스인지 등등...) 슈팅을 발로 시도하는지 머리로 시도하는지도 고려되어 각각의 수치로 전환된다. 또한 슈팅이 유효 슈팅인지, 상대 수비에 의해서 블락되었는지도 고려된다. 이처럼 모델링을 다양하게 할 수 있고 훨씬 다양한 변수를 활용하여 예측을 할 수 있다. 하지만 모든 모델링에 있어서 제외되는 사항은 바로 '상대팀 수비수의 포지셔닝'이다. 최근에는 경기 상황을 모델링에 포함시키려는 움직임도 시도되고 있다. (스코어 상태에 따라 팀의 밸런스가 깨지게 되고 그로인해 득점의 가능성은 또 변하게 된다)


지금 소개할 모델링은 오직 유효 슈팅과 슈팅이 시도되는 위치만으로 ExpG을 계산한다. 46가지의 구역과 페널티킥, 직접 프리킥 총 48가지 케이스로 구분한다. 너무나도 간단한 방법의 모델링이지만 처음으로 이 개념을 소개하는데 있어서 쉬운 모델링이 적합할 것 같다. 지난 4시즌간 누적되온 13,000여개의 유효 슈팅을 종합해 활용할 것이다. 







앞서 언급했던 것처럼 13,000번의 유효 슈팅은 46개의 구역, 페널티킥, 직접 프리킥으로 각각 구분될 수 있고 각 구역에서 시도되는 유효 슈팅 기록을 토대로 평균적인 득점을 유추할 수 있다. 예를 들자면, 14번 구역에서 시도되는 유효 슈팅은 이론적으로 0.59골의 가치를 지닌다. 만약 A팀이 5번 구역에서 유효 슈팅을 시도하면 0.91골을 기대할 수 있다. 이제 팀 혹은 선수가 시도한 슈팅들의 기대값을 모두 더하면 각 팀과 선수의 ExpG 값을 구할 수 있다.


회귀분석이라는 수학적 테크닉을 활용하여 지난 4시즌간 80개팀의 퍼포먼스를 분석한 ExpG 데이터가 얼마나 유용한지 증명해주려고 한다. 우선 실제 골득실과 ExpG 방법으로 예측한 골득실을 좌표로 표현해 점을 찍고 회귀분석을 통해 R^2값을 구한다. 즉 우리가 알아보고자 하는 것은 실제 골득실과 유효 슈팅이 시도되는 위치의 상관성이 있는가이다. R^2값이 1에 가까울수록 그 상관성이 강하고 0에 가까울수록 그 상관성이 약하다고 할 수 있다. 여기서 우리는 회귀분석을 통해 R^2값 0.878을 얻을 수 있다.






Prozone은 골득실이 장기적인 관점에서 팀의 성적을 예측하는데 굉장히 좋은 지표임을 언급했었고 실제 리그 테이블에도 그렇게 반영된다. 만약 기대 골득실값 (Expected Goal Difference, ExpGD)와 실제 골득실이 강한 상관성을 가진다면, 결국 ExpGD로 실제 테이블 순위도 예측할 수 있다는 말이 된다.


맨체스터 유나이티드의 ExpGD는 조사한 4시즌 중 첫3시즌간 수치가 20대였으나 올시즌에는 12 미만의 값을 기록 중이다. (2014년 5월 기준, 즉 데이빗 모예스 시절) 반면에 맨체스터 시티의 첫번째 시즌 기록은 ExpGD가 2를 간신히 넘는 수치였으나 3시즌 사이에 그 값이 30~40대로 완전히 늘어났다. 그리고 시티는 그 3시즌 사이에 2차례나 리그 우승을 차지했다. 한편 리버풀의 ExpGD는 10 후반에서 출발하여 2013/2014시즌 30대까지 상승했다. 






그렇다면 한 시즌의 ExpGD는 그 다음 시즌의 ExpGD와 연관성이 있을까? 마찬가지로 회귀분석을 돌렸을 때, R^2값이 0.7082가 나왔다. 아웃라이어 하나가 돋보이는데 2010/2011 시즌에서 2011/2012시즌으로 넘어가는 맨체스터 시티의 기록이 가장 두드러진다. 


또 그렇다면, 한 시즌의 ExpGD는 다음시즌의 실제 골득실과 어느 정도의 연관성을 지닐 것인가? 이것도 마찬가지로 회귀분석을 통해 확인할 수 있다. 다음시즌 실제 골득실과 연관성이 다음시즌 ExpGD 보다는 작다는 것을 확인할 수 있다. 시즌 사이의 명확한 상관성 연구를 위해서는 앞에서 언급했던 것처럼 더 많은 데이터를 활용해야할 것으로 보인다. 






출처 : https://differentgame.wordpress.com/2014/05/19/a-shooting-model-an-expglanation-and-application/ 



무승부 발생 가능성을 예측하다

Football Stats 2016. 6. 1. 19:24 Posted by Seolskjaer



축구 경기를 예측을 위한 모델링에 있어서 가장 방해가 되는 요소는 바로 무승부의 발생 가능성이다. 다른 스포츠와 다르게 축구에서는 무승부가 상당히 높은 확률로 발생하고 (전체의 약 26%가 무승부) 즉 우리는 각팀의 승리 확률을 판단하기 이전에 무승부가 발생할 가능성을 상당히 높게 평가해야만 한다.


무승부 가능성을 결정하는 3가지 요소는 이렇게 정의내릴 수 있다.


1. 홈팀과 원정팀의 예상 득점 수, 두 팀의 예상 득점 수가 비슷하면 비슷할수록 무승부의 가능성이 증가한다.

2. 전체 득점의 예측값, 적은 득점이 나올 것이라 예측될수록 무승부의 가능성이 증가한다. 전체 득점의 예측값이 0에 가까울수록 0:0 무승부의 가능성이 높아진다.

3. 두 팀이 무승부에도 만족할 수 있는 상황인가? 두팀 모두 무승부를 긍정적으로 받아들일 수 있는 조건이라면 무승부 가능성은 명백하게 상승한다.


먼저 언급한 2가지는 모델링하기 비교적 쉬운 사항들이지만 3번째로 언급한 사항은 주관적인 사항이기에 어려움이 따른다.  


무승부에 대한 모델링을 하기 위해서 포아송 분포를 참고할 것이나 실제 경기 결과를 바탕으로 판단해야하기에 변화를 주어야 한다. 실제로 포아송 분포에서 제시하는 가능성보다 실제로 0:0 무승부가 발생할 확률이 더 높다. 아래 그림은 잉글랜드 프리미어 리그에서 무승부가 발생할 확률을 그래프로 나타낸 것이다.






모델링이 실제 경기를 바탕으로 만들어졌기 때문에 3번째 요소에 대한 어느 정도 가능성을 열어두었다고 할 수 있다. 그러나 두 팀이 경기를 어떻게 받아들이느냐의 정도를 정확히 예측하기 위해서 그 경기에 대한 문맥을 짚을 수 있어야 한다. 가령 그 경기가 반드시 이겨야하는 경기인가에 대해서 파악해야하고 비슷한 대결에서 감독의 전략적 성향, 그 팀의 라인업에 대해서도 고려해야만 한다. 보통 이런 풍토는 지역별로 다른 형태를 보이는데 따라서 국가별로 무승부가 발생할 확률도 다른 형태를 보이고 있다. 





위의 차트는 지난 6시즌간 각 리그별로 무승부가 발생할 확률을 보여준다. 프랑스가 가장 무승부가 많이 발생하는 것으로 나타났는데 이는 무승부를 받아들이는 것에 대한 프랑스 축구의 경향성도 있지만, 전체적으로 득점이 잘 나오지 않는 리그의 성향도 여기에 영향을 주었다고 할 수 있다. 한편 스페인은 가장 적은 무승부가 발생하는 것으로 확인되었다. 이것이 스페인이 전술적으로 효과적이기 때문일까? (사견 : 순위에 승자승이 강한 영향을 주기 때문에 승부를 보는게 훨씬 좋다는 판단을 하게 되어서 아닐까 싶기도 합니다)





출처 : http://goalprojection.com/2015/12/29/modeling-the-draw/



각팀이 경기에서 기록하는 득점 수는 포아송 분포를 따르게 된다. 아래 그래프를 통해서 확인할 수 있는데 포아송 분포는 무득점 가능성을 다소 과소평가하고 있으며 1~3골이 기록될 가능성을 조금 더 높게 예상하고 있다. 그러나 4골 이상부터는 다시 포아송 분포의 예상값이 실제 값보다 작다. 그러나 그 차이는 우리가 무시하고 넘어갈 수 있을정도로 작다고 생각된다.





우선 홈과 원정에서 프리미어 리그 클럽들의 득점과 실점 기록 평균을 구해 공격 계수, 수비 계수 수치를 만들었고 특정 매치에 2개의 팀의 각각의 계수를 대입하여 예측할 수 있는 스코어를 계산해 보았다. 이를 토대로 아래에 있는 포아송 분포를 따르는 확률 매트릭스를 만들어낼 수 있었다. 



Goals012345678
01.964.084.242.941.530.640.220.070.02
13.637.567.865.452.831.180.410.120.03
23.367.007.275.042.621.090.380.110.03
32.084.324.493.111.620.670.230.070.02
40.962.002.081.440.750.310.110.030.01
50.360.740.770.530.280.120.040.010.00
60.110.230.240.160.090.040.010.000.00
70.030.060.060.040.020.010.000.000.00
80.010.010.010.010.010.000.000.000.00


과거의 기록을 토대로 만들어야 하기 때문에 리그 시작 후 5주가 지난 후에서야 이 모델을 활용할 수가 있었다. 또 아래의 표는 포아송 분포를 이용한 홈팀의 승리 가능성을 예상한 것인데 이를 통해 계산한 값과 베팅업체 Betfair의 값을 비교해보시라.


omeAwayPredictionProbability (%)OddsBetfairResult
SwanseaEvertonHOME56.31.783.35AWAY
ChelseaStoke CityHOME63.41.581.39HOME
SouthamptonAston VillaAWAY49.22.033.1HOME
West BromReadingHOME41.12.431.82HOME
West HamSunderlandHOME35.72.802.24DRAW
WiganFulhamAWAY40.12.493.25AWAY
LiverpoolMan UtdAWAY75.61.322.82AWAY
NewcastleNorwichHOME82.91.211.84HOME
Man CityArsenalAWAY37.12.701.78DRAW
TottenhamQPRHOME41.12.431.51HOME


포아송 분포를 통한 경기 예측은 매주 30~60% 가량의 경기 결과를 정확하게 예측해내고 있다. 평균적으로 46%의 정확성을 기록 중인데 우리가 임의로 찍어서 얻어내는 확률 33%보다는 높은 값이다.





시즌이 더 진행되면서 자료가 쌓일 경우 더욱 정확한 예측이 가능할 것이라 생각한다. 또한 계산 모델에서 더 발전이 있을 수 있다. 현재 사용하고 있는 방식은 각팀의 득점을 독립적인 사건으로 생각하고 있지만 한 팀이 계속 득점할수록 상대팀의 득점 확률은 줄어드는 상호작용이 포함되는 모델이 개발될 경우, 더욱 정확한 결과를 예측해낼 수 있을 것이다. 아직까지 포아송 분포를 활용한 경기 예측은 신뢰할 수 있는 수준이 아니다.



출처 : http://pena.lt/y/2012/10/29/using-poisson-to-predict-football-matches/



2014/2015시즌 잉글랜드의 탑4는 첼시, 맨체스터 시티, 아스날, 맨체스터 유나이티드였다. 리버풀이 크리스탈 팰리스에게 패배하면서 맨체스터 유나이티드의 4위 수성이 확실해졌고 이는 대차대조표 순위와도 일치한다. 2014/2015시즌 성적 탑4는 프리미어 리그에서의 매출 탑4였으며 동시에 가장 많은 선수임금을 지불하는 클럽이기도 했다.


임금 순위와 리그 순위의 공통점이 굉장히 특별한 결과일까? 우리는 회계 자료를 바탕으로 탑4를 예측할 수 있을까? 그래서 앞으로 2000/2001시즌부터 지난해(2013/2014시즌)까지의 임금 데이터를 바탕으로 논의를 이어가려고 한다. 14시즌간 차지할 수 있는 탑4 자리는 총 56개인데 그 중 80%를 넘는 46개의 자리가 임금 지출에서 상위 탑4를 차지하는 팀의 몫이었다. 14시즌간 임금 지출 탑4가 아님에도 리그 순위 탑4에 들어간 경우는 단 10차례에 불과했다. 즉 금전적 파워가 없는 클럽은 우승하기 어렵고 설사 우승하더라도 바로 다음해 침몰하기 쉽다는 것이다.


아래 차트는 임금 지출 순위와 리그 순위를 나타내는 자료이다. 리그에서 가장 많은 임금을 지출하는 클럽임에도 불구하고 (임금지출 1위임에도 불구하고) 탑4에서 벗어난 경우는 단 2차례 뿐이다. 2013/2014시즌의 맨체스터 유나이티드와 2000/2001시즌 첼시가 그 유이(二)한 예외이다. 또 다른 관점에서 봤을 때, 임금지출 하위 10개 팀에서 탑4에 진입한 적은 단 한 차례도 없었다.





그런데 임금 순위 4위 밖 클럽이 리그 4위 안에 들어가고서 챔피언스 리그 무대를 실질적으로 밟아본 경우는 그 숫자가 더 적다. 2011/2012시즌 임금으로 £90m을 지출했던 토트넘 핫스퍼는 자신들보다 리그 순위가 낮음에도 UEFA 챔피언스 리그 우승을 차지한 첼시에게 진출권을 빼앗기는 비극을 맞이했다. 당시 첼시의 임금 지출은 £170m


2004/2005시즌 에버턴은 굉장히 소규모 예산인 £31m으로 리그 4위를 차지했으나 에버턴은 챔피언스 리그 플레이오프에서 떨어졌고 2003년 뉴캐슬 유나이티드도 마찬가지였다. 즉 임금 지출 탑4가 아님에도 챔피언스 리그 무대를 맛본 팀은 지난 15년간 10개가 아닌 단 6개 팀에 불과하다.


그렇다면 임금지출 대비 성공적인 클럽은 어느 시즌의 어떤 클럽이었을까? 과연 그들의 성공은 재현될 수 있을까? 



우승 경쟁 : 2013/2014시즌 리버풀, 승점 84점, 리그 준우승, 임금지출 £144m (리그 5위)


2013/2014시즌 리버풀은 아웃라이어이다. 2000년 이후로 임금지출 탑4가 아님에도 타이틀 레이스를 펼치고 1위와 승점 10점 이내로 시즌을 마감한 팀은 이 때의 리버풀이 유일하다. 또한 지난 15년간 임금지출 탑4가 아님에도 승점 75점을 초과한 경우도 리버풀이 유일하다.





역사에 남을만한 드라마틱한 타이틀 레이스를 선보인 리버풀은 루이스 수아레즈의 바르셀로나 이적, 라힘 스털링의 맨체스터 시티 이적, 다른 키플레이어들의 부상과 부진으로 순위가 떨어졌으며 현재는 임금 지출에 부합하는 순위로 다시 내려갔다. 2013/2014시즌 리버풀은 분명히 뛰어난 팀이었지만 지금까지의 역사는 그 때의 성공이 리버풀의 밝은 미래를 향한 기대할 수 있는 초석을 다진 시즌이라기보단 아주 두드러진 이상값이었다고 말하고 있다.




2000/2001시즌 아스날, 승점 70점, 리그 준우승, 임금지출 £41m (리그 5위)

2009/2010시즌 아스날, 승점 75점, 리그 3위, 임금지출 £111m (리그 5위)

2010/2011시즌 아스날, 승점 68점, 리그 4위, 임금지출 £124m (리그 5위)


아스날이 현재 풍족한 재정을 보유하게 된 것은 그간 클럽이 지속적으로 성적으로 4위권을 유지했기 때문이다. 그리고 아스날은 계속해서 임금 지출에 따른 기대치 이상의 성적을 내왔다. 조사기간 아스날이 임금지출 탑4에서 벗어난 경우는 3차례인데 아스날은 그 3시즌 모두 4위 내로 진입했다. 


일부 팬들은 수년간 타이틀 경쟁력 부족으로 아르센 벵거를 비웃으나 벵거는 상대적인 재정적 불리함을 가지고 팀을 챔피언스 리그 진출권에 안착시키는 꾸준함을 보여주고 있다.



언더독

2001/2002시즌 뉴캐슬, 승점 71점, 리그 4위, 임금지출 £32m (리그 8위)

2002/2003시즌 뉴캐슬, 승점 69점, 리그 3위, 임금지출 £45m (리그 6위)

2004/2005시즌 에버턴, 승점 61점, 리그 4위, 임금지출 £31m (리그 10위)

2009/2010시즌 토트넘, 승점 70점, 리그 4위, 임금지출 £67m (리그 7위)

2011/2012시즌 토트넘, 승점 69점, 리그 4위, 임금지출 £90m (리그 6위)


앞서 우리는 재정적으로 열세에 있는 팀이 리그 탑4에 올라선 후 챔피언스 리그 본선 무대를 제대로 밟은 경우는 얼마 없다는 점을 지적했다. 2001/2002시즌의 뉴캐슬과 2009/2010시즌 토트넘이 4위를 차지하고 다음시즌 챔피언스 리그 본선 무대를 경험한 클럽이다. 우리는 언더독의 수치에서도 프리미어 리그 연봉 인플레이션을 체감할 수 있다. 2002/2003시즌 리그 전체 6위의 임금지출을 기록한 뉴캐슬의 수치는 £45m이었는데 2011/2012시즌 똑같은 순위를 기록한 토트넘의 지출액은 그 2배인 £90m이다.


임금지출 탑4가 아니더라도 희망을 잃지 말아야 한다. 아르센 벵거는 지난 몇년간 아스날이 승점 70점 정도를 획득할 수 있게 팀을 이끌었고 따라서 그 때부터는 리버풀이 자신들의 임금지출 대비 예상 성적에 걸맞지 못한 모습만 보여주면 챔피언스 리그에 갈 수 있었다. 마찬가지로 2013/2014시즌 임금지출 1위인 맨체스터 유나이티드가 최악의 성적을 기록하니 리버풀에게는 그것 외에 특별한 행운이 필요 없었을 것이다.


아래에 있는 그래프는 임금의 인플레를 감안한 자료로 재정적 뒷받침이 되지 않은 상태에서 승점 70점 달성이 상당히 어렵다는 것을 말하고 있다. 실선으로 되어있는 라인은 최근 프리미어 리그 임금지출 순위 5~7위를 기록한 것으로 리버풀 정도의 재력이 되는 팀은 정기적으로 탑4 자리를 놓고 경쟁을 펼칠만하다고 할 수 있다. 그러나 재정적으로 해볼만한 싸움에 위치한 클럽도 절반 가까이 탑4 달성에 실패할 것으로 전망된다. 6위부터는 더 어려운 싸움을 펼쳐야한다고 할 수 있고 그 바로 아래 위치는 그 가능성이 거의 없다고도 볼 수 있다.






탑5 이하의 임금지출 능력으로 승점 70점 달성은 어렵다고 할 수 있다. 따라서 이들이 탑4에 들어가기 위해선 경기력 퀄리티 뿐만 아니라 행운도 필요하다. 뉴캐슬은 리즈 유나이티드의 붕괴 덕을 보았고 승점 61점으로 4위를 차지했던 에버턴은 운이 좋았다고 할 수 있다. 토트넘은 리버풀의 부진과 더불어 맨체스터 시티(2009/2010), 첼시의 부진(2011/2012) 덕을 보았다고 할 수 있다.


언더독이 챔피언스 리그에 나가는 것은 불가능한 일이 아니다. 그러나 그러기 위해서는 좋은 플레이, 좋은 감독 이상의 것이 필요하다. 소규모 재정을 가진 클럽이 장벽을 넘어서기 위해선 부자 클럽들의 형편없는 퍼포먼스가 동시에 필요하다.




출처 : http://www.espnfc.us/blog/tactics-and-analysis/67/post/2476622/premier-league-dominance-is-down-to-wages-but-can-be-broken





클린 시트(Clean Sheets)


수많은 분석가들이 득점에 상당히 치중한 분석을 내놓고 있지만, 이번에는 무실점 경기 즉 클린 시트에 대해서 이야기를 해보려고 한다. 클린 시트는 1993년부터 2011년까지 잉글리쉬 프리미어 리그에서 약 27%의 발생 확률을 기록하고 있다. 아래 보여지는 데이터는 평균값에서 다소 움직임이 있음을 나타내고 있으나 차이는 결코 크지 않다.





홈&어웨이


우선 우리는 데이터를 홈&어웨이 두가지로 나누어 살펴보려고 한다. 이 순간부터 우리는 평균값의 확연한 차이를 확인할 수 있는데, 홈팀은 33%의 확률로 클린 시트를 기록하며 어웨이팀은 22%의 확률로 클린 시트를 기록하게 된다. 굉장히 흥미로운 점은 홈&어웨이 클린 시트 발생 확률의 그래프가 매우 유사한 형태를 보이고 있다는 것이다. 


클린 시트는 적어도 승점 1점을 보장해준다는 의미에서 상당히 유용한 가치를 지니고 있다. 굉장히 진부한 표현이지만 실점하지 않는다면 경기에서 패배할 이유는 없다. 지금까지의 EPL 역사를 돌이켜보면 홈 경기에서 클린 시트를 기록하는 것은 평균적으로 승점 2.1점을 가져다주었다. 반면에 원정에서는 평균 1.8점으로 비교적 낮은 수치를 기록하고 있다. 평균적으로 클린 시트는 1시즌당 추가적인 승점 7.5점을 벌어준다.






프리미어 리그 내에서는?


아래는 2011-2012시즌 프리미어 리그 클럽들이 홈&어웨이 경기에서 클린 시트를 기록한 비율을 나타낸다. 오른쪽 상단에 위치한 클럽들은 홈과 원정 가릴 것 없이 상당히 높은 비율로 클린 시트를 기록하는 팀이다. 웨스트 브롬위치 같은 경우는 홈에서는 수비를 잘했지만 원정에서는 홈에서만큼의 수비력을 못보여준 케이스라 볼 수 있다. 리버풀은 웨스트 브롬의 반대의 경우라 볼 수 있다. 어웨이에서는 무실점 확률이 안필드에서보다 높다. 볼턴, 블랙번, 울버햄턴 모두 홈&어웨이 가릴 것 없이 클린 시트 비중이 낮았고 2011-2012시즌을 끝으로 프리미어 리그와 작별을 해야만 했다. 특이한 점은 원정에서 최악의 클린 시트 확률을 기록한 노리치는 리그 12위로 시즌을 마감하는 예외적인 케이스를 남겼다.






클린 시트와 리그 순위의 관계


2011-2012시즌 기록을 토대로 선형 회귀분석을 시행하면, 우리는 클린 시트 횟수와 리그 최종 성적이 상관 관계에 있음을 확인할 수 있다. 결정계수(R-square)값이 0.72로 우리는 클린 시트와 리그 최종 순위가 강한 상관 관계에 있음을 확인할 수 있다. (리그 최종 성적의 약 72%는 클린 시트 기록에 의하여 설명이 가능하다)




출처 : http://pena.lt/y/2012/10/26/influence-of-clean-sheets/



TSR과 성적의 상관관계?

Football Stats 2016. 6. 1. 18:54 Posted by Seolskjaer


Total Shots Ratio (TSR) 값은 = A팀의 슈팅 시도 횟수 / (A팀의 슈팅 시도 횟수 + B팀의 슈팅 시도 횟수) 로 계산한다고 이전 포스팅을 통해 언급한 바 있습니다.


TSR값이 높은 팀은 공을 컨트롤하는 시간이 더 많을 것이고 TSR은 팀의 미래 퍼포먼스를 예측하기 위한 용도로 활용될 수 있습니다. 요점은 아래를 통해서 알 수 있습니다. 아래 그래프는 승점과 TSR값의 관계를 나타내는 그래프입니다.







TSR과 승점과의 상관 관계는 강하게 나타나지만, 반드시 높은 TSR이 승점으로 연결되는 것은 아닙니다. 그러나 더 많은 슈팅을 시도하는 팀이 경기를 지배할 것이고 공을 더 많이 컨트롤하는 팀이 더 좋은 성적, 더 높은 승점을 쌓게 될 가능성이 높습니다.


위의 그래프에 조금 더 색칠을 가해보겠습니다. 아래 그래프를 통해서 알 수 있는 사실인데, 검정색으로 칠해진 점은 우승 팀을 나타내고 하늘 색깔은 챔피언스 리그 진출을 달성한 팀의 기록입니다. 빨간색은 강등을 당한 팀의 기록입니다.





꽤나 명확해보이는 하나의 패턴이 드러나는데, 공을 제대로 컨트롤하지 못하는 (그래프 왼쪽 부분) 클럽들이 강등당할 확률이 높고 리그에서 챔피언스 리그 진출권 획득은 물론 우승도 하지 못할 가능성이 매우 높다는 것 입니다. 챔피언스 리그 진출이나 리그 우승을 위해선 공을 확실하게 컨트롤 해야합니다. 그런데 우리는 위의 그래프에서 하늘색 점 하나가 그래프 왼쪽에 위치한 것을 보고 있습니다. 그 팀은 바로 2004-2005시즌 챔피언스 리그 진출권을 획득해낸 에버턴입니다.


우리는 위의 그래프를 통해서 TSR값과 챔피언스 리그 진출권 획득 가능성, 강등 가능성을 알아내보고자 합니다. TSR과 챔피언스 리그 진출권 확보 가능성, 강등 가능성의 그래프는 아래와 같습니다. 우리는 이를 통해서 성공을 거두는 팀에게 있어서 경기를 지배하는 것은 필수적인 요소라는 것을 알 수 있습니다.






출처 : https://jameswgrayson.wordpress.com/2012/07/15/another-post-about-tsr/

TSR(Total Shot Ratio)이란 무엇인가?

Football Stats 2016. 6. 1. 18:50 Posted by Seolskjaer

TSR이란 무엇인가?


TSR(Total Shot Ratio)값은 두 팀의 슈팅 숫자의 비율을 계산하는 것이다. TSR값은 A팀의 슈팅 숫자를 경기에서 나온 전체 슈팅 숫자로 나누는 것이다. 


TSR = A팀의 슈팅 시도 횟수 / (A팀의 슈팅 시도 횟수 +B팀의 슈팅 시도 횟수)


B팀의 슈팅 시도 횟수 = A팀이 슈팅을 허용한 횟수


경기를 지배하는 팀은 상대 팀보다 더 많은 슈팅을 시도할 것이며, 경기를 지배하게 된다면 자연스럽게 상대 팀이 슈팅 기회를 잡는 횟수가 줄어들기 때문에 TSR 데이터는 경기 지배력을 측정하는 용도로 활용된다.


TSR 기록


TSR의 평균 값은 언제나 0.5이다. 만약 경기에서 A팀이 TSR값을 0.75를 기록할 경우 B팀의 TSR값은 자연스럽게 0.25가 된다. 따라서 (0.75+0.25)/2=0.5 이므로 언제나 TSR값의 평균은 0.5이다. 잉글랜드 프리미어리그 2001-2002시즌부터의 8360경기 기록인데 아래 그래프를 통해서도 평균값이 0.5임을 알 수 있다. 분산값은 0.166이다.






TSR과 득점 수와의 상관 관계


앞서 우리는 TSR이 경기 지배력을 측정할 수 있는 데이터라고 했는데 과연 이것이 득점 수와 연관성이 있을까? 상대보다 더 많은 슈팅을 시도하면 득점 수가 높을 것이라고 예상되지만, TSR값과 득점 수는 비례 관계가 아니다.






TSR과 골득실간의 상관 관계


TSR값이 높으면 경기 지배력이 높을 것이고 자연스럽게 골득실 기록이 더 좋을 것이라는 연관성이 있을까 궁금해할 수 있지만, TSR값과 골득실에는 연관성이 떨어진다. 마찬가지로 경기 결과와 TSR의 상관 관계 역시 비례하지 않는다. 우리는 이미 상대보다 더 많은 슈팅을 기록하더라도 경기에서 지는 경우를 많이 목격해왔다.






TSR과 승점의 상관 관계


TSR값이 각각의 경기 결과와는 연관성이 없지만, 그건 단기적인 관점에서 봤을 때의 이야기이다. 우리는 경기 결과와 TSR과의 상관 관계를 알아보기 위해서는 더 많은 경기 수가 필요하다. 아래 그래프를 통해 시즌 전체 승점과 TSR값이 서로 비례 관계에 있다는 것을 알 수 있다. 즉 오랜 기간동안 TSR 값을 높게 유지할 수 있는 팀이라면, 승점을 잃는 경기가 적다는 것을 의미한다.






TSR값을 정확하게 해석하려면 어느만큼의 경기 수가 필요한가?


TSR값이 장기간에 걸친 경우에만 의미를 가진다고 했을 때, 그렇다면 우리는 도대체 어느 정도까지의 시간이 필요한가를 궁금해할 수밖에 없다. 아래 그래프를 통해서도 더 많은 경기를 가지고 데이터를 집계할수록 분산값이 줄어들며 0.5값에 더욱 가까이 가고 있음을 알 수 있다. 보통 30~38경기 즈음부터 분산값이 굉장히 적게 변하는 것을 알 수 있는데 이말은 즉슨 TSR값이 실질적인 의미를 가지기 위해선 최소 1시즌의 시간이 필요하다는 것을 암시한다.





단기적인 관점에선 TSR값은 득점 수와 경기 결과와 큰 연관성이 없다. 변수가 많이 존재하기 때문이다. 그러나 장기적인 관점에서 더 많은 경기 수를 가지고 계산을 하게되면 그런 특수한 경우들이 가지는 거품들이 빠지게 되고 TSR값은 점점 실제 경기 결과와 연관성을 가지게 된다. TSR 수치를 사용하지 말라는 것이 아니다. TSR 수치는 여전히 흥미로운 이야깃거리를 던진다. 그러나 TSR값을 분석하기 위해선 TSR값이 가지는 한계성도 알고 있어야할 것이다.



출처 : http://pena.lt/y/2013/04/02/understanding-total-shot-ratio-in-football/



사이먼 윌슨(Simon Wilson)이 사우스햄턴에 처음 발을 딛는 순간, 그는 프로존(Prozone)이라 불리는 소규모 컴퓨터 프로그램 업체의 컨설턴트였다. 프로존은 피치 전반에 걸쳐 8대의 카메라를 설치하고 그것을 바탕으로 2D 영상으로 전환하여 선수를 트래킹(player-tracking)하는 시스템을 고안한 선두 주자이다. 프로존의 기술은 선수들의 움직임을 매 0.1초마다 캐치해내고 그것을 바탕으로 경기당 평균 3,000회의 볼터치를 측정해낸다. 그걸 바탕으로 오늘날 우리가 통계적으로 궁금해하는 사항들에 대해서 답을 얻어낸다. 사우스햄턴은 프로존과의 협력으로 이 일을 시작했지만 나중에는 윌슨을 퍼스트팀 전력 분석관(performance analyst)으로 고용한다.


"프로존의 시스템은 다수의 감독들이 채택하고 있는 전략도 아니었고 하나의 축구 문화도 아니었습니다. 다만 저는 사람들이 왜 이렇게 다양한 종류의 데이터를 원하지 않는가에 대해서 이해하기 어려웠습니다." 윌슨이 말한다. 2005년 루턴 타운과 사우스햄턴의 챔피언십 경기를 앞두고 윌슨은 당시 클럽 감독이었던 해리 레드냅에게 데이터를 토대로 경기 전 브리핑을 하게 되었다. "알다시피 해리는 분석적인 성향의 감독이 아닌 직관력으로 승부를 보는 감독입니다. 그는 선수들에게 더 많은 정보를 제공하면서 부담을 주는 것을 원하지 않았습니다." 결국 사우스햄턴은 2:3으로 패배햇고 팀버스 안에서 해리 레드냅 감독은 윌슨에게 이렇게 말했다고 한다. "이 봐, 다음 주에 네 놈 컴퓨터와 상대팀 컴퓨터가 싸워서 누가 이기는지 보자고"


반면에 레드냅 감독과 달리 데이터 활용에 적극적인 입장도 있는데 2003년 잉글랜드를 럭비 월드컵 우승으로 이끌었던 클리브 우드워드가 대표적인 케이스라고 할 수 있겠다. 2005년 우드워드는 사우스햄턴의 풋볼 디렉터 자리에 1년 계약 제의를 받았다. 사실 우드워드는 럭비계에서 처음으로 프로존의 데이터 시스템을 도입한 감독이다. 잉글랜드의 데이터와 상대팀의 데이터를 지속적으로 저장했다. "처음으로 데이터를 접목시키는 것을 목격했을 때 이러한 방식에 매료될 수 밖에 없었다. 경기를 지켜보고 있지 않는 지점에 대해서는 전혀 알 수 있는 방법이 없었지만 데이터화를 통한 점의 움직임으로 확인할 수 있게 되었다. 상대가 어떻게 플레이하고 있는지에 대한 선입견에도 변화를 줄 수 있었다. 우리가 이전까지 이기지 못했던 팀들을 데이터를 통한 기록으로 보았을 때 완전히 달라보였다." 이상 클리브의 발언이었다.


"클리브는 모든 분야에 데이터를 활용할 수 있도록 환경을 마련했다. 그는 우리가 골을 넣기 위한 훈련에 시간을 쏟고 있다고 왜 상대의 플레이를 저지하는 것에는 시간을 그만큼 투자하지 않느냐고 말했고 나는 코칭 스태프와 선수단이 (직관에 의해 시행) 하는 것들에 대해서 설명했다. 그러더니 클리브는 왜 그렇게 운영하고 있냐고 계속 되물었다." 윌슨이 클리브와 같이했던 시기를 회상한다. 클럽은 계속해서 직관에 의존해 운영되었고 결국 레드냅은 해를 넘기지 못한 채 자리에서 물러났으며 우드워드는 기존의 1년 계약 기간이 끝나자 팀을 떠났다. 윌슨의 경우는 우드워드보다 조금 더 이른 시점에 사우스햄턴을 떠났지만 분명히 클럽을 이끌어가는 방식에 더 좋은 방법이 있는게 분명하다고 확신하게 되었다. "우드워드는 비디오, 통계 자료와 같은 것들이 팀을 준비하는데 있어서 굉장히 기초적인 부분을 차지한다고 믿었습니다. 다만 기존의 클럽 운영 방식이 (직관에 의존하는) 특정 방법론에 의거해 이루어지고 있었기 때문에 우리가 꼭 나서서 할 필요가 없다고 생각했던 것이죠."


오늘날 20개 프리미어 리그 클럽 중에서 19개 클럽이 프로존을 활용하고 각 팀에는 전력 분석관과 데이터 분석가(data scientists)가 선수들의 퍼포먼스 지표를 분석한다. 경기에서 결정적인 순간들과 시즌을 보내는데 있어서 클럽의 전술적 트렌드 등을 분석하게 된다. 한 마디로 이들이 세계 최고 스포츠를 조목조목 해부하는 과학자인 것이다. 프로존과 더불어 다른 시스템까지 활용한 분석 자료를 기반으로 승리를 만든 플레이와 패배를 만든 플레이의 차이점을 발견한다. 


1950년 3월 19일 오후 3:50 영국 공군(RAF)의 회계사 찰스 리프(Charles Reep)는 스윈던 타운과 브리스톨 로버스의 경기를 보러 가서 노트와 연필을 꺼낸다. 그리고 나서 피치 위에서 발생하는 사건들을 자신만의 기호로 기록한다. 반면에 오늘날 전력 분석관들은 컴퓨터 시스템에 의존한 방식으로 경기를 기록한다. 지난 수십년간 리프는 2,200경기를 기록했으며 1경기마다 80시간이 걸렸다고 한다. 특히 1958년 월드컵 결승전은 분석하는데 무려 3달이 걸렸다는 이야기가 있다.


우리는 축구가 예측 불가능하고 굉장히 다이내믹한 경기라고 생각하지만, 리프는 그 와중에도 예측 가능한 패턴과 일정한 법칙이 존재함을 증명해냈다. 평균적으로 9번의 슈팅마다 1골이 나오고 전체 득점의 80%가 4번의 패스보다 적게 연결된 상태로 만들어진다고 한다. 또한 전체 득점의 50%는 골라인에서 30m 떨어진 지점에서 공을 뺏어낸 이후에 만들어낸 득점이며 결국 리프는 지속적으로 패스를 시도하는 플레이 시간을 줄이고 상대 진영에서 공을 뺏어내는 움직임에 더 많은 투자를 하면 좋은 성적을 낼 수 있다는 결론을 내리게 되었다. 리프가 주장하는 방식의 축구는 롱볼(long-ball game)이라 알려진 전술이 되었다.


롱볼 게임에는 2가지 문제점이 있다. 우선 보는게 괴롭다는 점이다. 둘째는 롱볼 축구를 지지하는 리프의 통계 자료는 굉장히 단편적이라는 것이다. 2005년 University of British Columiba 의 이안 프란츠(Ian Franks) 교수와 수학자 마이크 휴즈는 2차례의 월드컵 기록을 토대로 나름의 분석을 시행했다. 우선 프란츠와 휴즈가 시도한 데이터 분석은 리프의 분석과 상호호환 될 수 있으나 기록을 더 면밀하게 살펴볼 경우 차이점이 발생하는 것을 확인할 수 있었다. 우선 리프가 '전체 득점의 80%는 4회 이하의 패스로 만들어진다' 라고 주장한 것은 타당치 않은 주장이었다. 일반적으로 골이 그렇게 나왔던 것이지 4회 이하의 패스가 시도된다고 득점의 확률이반드시 높아진 것은 아니었다. 즉 득점의 빈도가 득점 확률과는 동일하지 않다는 것이다. 휴즈와 프란츠가 발견한 사실은 더 많은 패스를 성공시키는 팀이 골을 기록할 기회가 높아진다는 것이었다. "물론이죠. 오랫동안 패스를 주고받을 기술력을 갖춘 선수들이 필요한게 맞습니다." 휴즈가 말한다. 그 때까지도 사람들은 뻔뻔하게도 롱볼 전략을 사용하지 않는 브라질같은 국가들이 월드컵에서 우승한다는 사실을 무시하고 있었다.


"자료를 수집하는 것은 언제나 최우선적으로 시행되어야할 단계입니다. 그 점에서 리프는 아주 대단한 회계사였죠. 그러나 훌륭한 분석가는 아니었습니다. 숫자가 말해주는 것들에 대한 해석 능력에 한계가 있었습니다." Cornell University에서 경제학을 담당하며 지난 3년간 축구 통계에 대해 연구하고 있는 크리스 앤더슨(Chris Anderson)교수가 말한다. 앤더슨는 리프가 선입견을 가지고 있었고 분석가들 대다수가 활용하는 다른 가설 설정에 소홀했다고 지적한다. 눈에 보이는 최소한의 변수만으로 최대의 아웃풋을 이끌어내려고 했던 것이다. "리프의 결론은 롱볼 게임을 추구하는 사람들의 열렬한 지지를 받았습니다. 그렇게 결론을 내린 것이 잘못되었다는 것은 전혀 고려하지 않고서 말이죠." 앤더슨은 자신의 저서인 <The Numbers Game>에 이렇게 리프에 대해 이렇게 서술했다. '전술을 설명하기 위한 리프의 숫자 데이터 활용은 실패로 돌아가고 말았다. 왜냐면 리프는 데이터를 자신의 신념이 맞다고 뒷받침 하기 위해서 활용한 절대론자(absolutist)였기 때문이다. 축구에 대해서 자신이 가지고 있는 개념을 버렸어야만 했다. 승리를 만들어내는 단 1가지 공식을 만들겠다는 생각을 버렸어야만 했고 숫자들을 토대로 다양한 진실과 거짓을 발견하는걸 추구했어야 했다.' 다만 통계가 우리가 놓치는 부분에 대해서 확인할 수 있는 길을 열어준다는 리프의 주장은 전적으로 타당하다.


다시 윌슨의 이야기로 돌아가서, 윌슨은 2006년 맨체스터 시티로 팀을 옮기게 되었고 맨체스터 시티에서 Football Analytics란 새로운 부서의 최고 분석관으로 임명 되었다. 이 때부터 윌슨은 축구 팀이 데이터를 활용하는 방식의 차이를 바꾸려는 목표를 설정하게 되었다. "경기가 끝난 이후엔 어떠한 분석도 없었습니다. 감독과 코칭 스태프들이 선을 그려가면서 감성적인 분석을 하고서 넘어가는게 일종의 문화였습니다. 스스로 게임 플랜이 올바르게 설정되었는지 잘 먹혀들었는지 반문하지 않았습니다. 제가 이끄는 부서는 일종의 그런 습관과 싸워야만 했습니다. 그리고 결국에 우리는 하나의 루프를 만들어냈습니다. 1. 경기에서 무슨 플레이가 벌어졌는가 2. 무슨 이유에서 플레이가 나왔을까? 3. 그렇다면 우리가 나아갈 방향은 무엇인가? 이렇게 분석을 이어가는 것이죠."


당시만 하더라도 시티는 리그 중위권에 위치한 팀이었고 원정에서 좀처럼 승리를 만들어내지 못하는 팀이었다. 2008년 9월에 아부다비 유나이티드 그룹의 인수를 통해 시티는 프리미어 리그에 지각 변동을 일으켜냈다. 지금 윌슨은 맨체스터 시티의 전술 퍼포먼스 분석팀(strategic performance analysis)의 매니저 역할을 담당하고 있고 5개 부서를 총괄하고 있다. 5개 부서 중에는 팀 퍼포먼스 분석팀(team performance analysis)이 있는데 이 부서는 스포츠 과학자 에드 설리(Ed Sulley)가 담당하고 있는 곳이다매 경기마다 철저한 편집을 통해 팀의 퍼포먼스를 분석하는 세심한 레포트를 작성하는데 여기에는 경기의 승패를 좌우할 것이라 생각되는 통계 자료들이 포함된다라인 브레이크(line break) 횟수라던가공을 뺏기거나 뺏어낸 후 20초 동안 벌어진 사건들에 대해서 면밀히 분석한다이들은 전방 1/3지점에서 시티의 볼 소유권에 대해서 집중했고 결국에 경기를 승리하는데 있어서 전방 1/3지점에서 볼 소유권이 강한 상관 관계를 지닌다는 것을 알아냈다. “우리는 상위권 팀이 평범한 팀을 상대로 승리를 거둘 때그 지점(전방 1/3지점)에서 점유율을 지배하는 것을 발견했습니다패스 성공률이 상당히 높았고 특히 전진 패스가 두드러졌습니다그래서 이제 우리는 선수를 영입하는데 있어서 개인의 높은 패스 성공률에 대해서 주목하게 되었습니다.” 윌슨이 말한다.

 

라인 브레이크 횟수나 전방 1/3지점에서의 볼 소유권은 시티처럼 플레이하는 팀에는 중요한 지표가 될 수 있으나 다른 스타일의 경기를 펼치는 팀에게는 상관없는 기록일 수도 있다우리는 경기 스타일에 맞춰 통계 자료를 해석할 수 있어야한다어려운 점은 다양한 숫자들 사이에서 유의미한 수치를 발견하기가 어렵다는 것이다. “50가지 다양한 변수들에 대해서 고려하기 보다는 우리의 경기 스타일에 직접적인 영향을 주는 5개의 수치를 발견하길 원하고 있습니다정확한 데이터 공급이 있다면알고리즘을 통해 나오는 통계 자료들은 경기의 승패와 강한 상관 관계를 지니게 됩니다.” 시티의 경기 분석가(match analyst) 페드로 마르퀘스(Pedro Marques)가 말한다.

 

윌슨은 맨체스터 시티가 22경기 동안 코너킥에서 득점이 없었던 시절에 대해서 이야기하려고 한다따라서 분석팀은 코너킥 득점이 발생한 400번의 장면을 분석하기 시작했고 코너킥 득점 장면의 75%가 인-스윙(in-swinging) 코너킥에서 나왔던 것으로 분석되었다. “다음 시즌 12경기에서 우리는 코너킥으로 9골을 넣었습니다만약 코치들의 직관에만 의존한다면 6명의 코치 개개인의 의견이 다를 것이고 결국 각자의 생각은 버려지기 마련입니다반면에 우리는 아주 명백한(objective) 증거를 토대로 이게 옳은 방식이라 주장했고 그게 맞았습니다.” 윌슨이 말한다.

 

윌슨이 사우스햄턴에서 컨설턴트로 일했을 때그는 프로존의 기계에서 정보를 하드 디스크에 옮겨 담아 다른 10명의 프로존 컨설턴트가 있는 리즈로 복귀하여 밤새면서 데이터 처리를 했고 다시 분석 자료를 사우스햄턴에 가져다 줬다하루에 20시간을 일해야하는 날도 있었다프로존의 CEO인 Ram Mylvaganam은 축구에 대해서는 거의 아는 바가 없었다프로존 사무실 벽에는 아티스트 줄리안 비버(Julian Beever)의 작품이 걸려있는데 그 그림은 오른쪽에서 보았을 경우 3D처럼 보이는 착각을 만들어낸다. Mylvaganam에게 데이터는 비버의 작품과도 같았다제대로 보아야 데이터를 이해할 수 있는 것이며 잘못된 시선으로 바라보면 데이터는 실없는 소리에 그치는 것이었다.

 

Mylavaganam은 경영 상담을 전문으로 하는 직업에 있으면서 1996년에 프로존에 대한 아이디어를 처음 떠올렸고 당시 과거 에이전트 역할을 하고 있었던 닐 람세이(Neil Ramsay)의 소개로 더비 카운티와 계약을 하게 되었다프로존의 첫 시작은 포터캐빈(임시 사무실로 사용할 수 있도록 차량에 달고 이동 가능한 작은 건물)에 22개의 마사지 의자를 설치하여 의자에서 발산해내는 전기충격을 통해서 선수들의 근육을 풀어주고 유연성을 증가시키는 일이었다매일 아침 10시 30분에 선수들은 15분간 의자에 앉아 팀의 수석 코치인 스티브 맥클라렌의 이야기를 경청한다.맥클라렌은 경기 플랜에 대한 비디오 자료를 준비하여 선수들에게 설명한다

 

맥클라렌은 선수들이 모두 집으로 떠난 이후에도 남아서 일을 했다. 2개의 비디오 녹화기기와 스크린을 토대로 비디오 영상을 편집하고 있었다고생하던 것이다그래서 나는 맥클라렌에게 우리 회사 사람들에게 영상 편집을 맡겨보는 것이 어떠냐고 물어봤다그러더니 맥클라렌은 이렇게 반문했다. ‘당신들이 좋은 움직임과 나쁜 움직임을 선별해낼 수 있냐고난 선수들에게 어떻게 하면 이길 수 있는지에 대해서 보여주고 싶다.’라고 말했다.” Mylavaganam이 맥클라렌과의 이야기를 회상한다물론 맥클라렌이 더 많은 의미를 파악해낼 수 있었을 것이다. Mylavaganam은 프랑스에 있는 Video Sports라는 소규모 기업이 트래킹 소프트웨어를 개발한 것을 알게 되었고 회사 지분의 25%를 구매하여 프라이드 파크 스타디움(Pride Park Stadium, 더비 카운티의 홈구장)에 카메라 8대를 설치했다. “물론 카메라 기술이 좋지는 않았습니다때로는 우리가 분석을 위해서 영상을 되돌리더라도 선수가 카메라에 잡히지 않는 경우가 있었습니다우리는 리즈에서 새로운 소프트웨어를 만들어야했지만 여전히 그 방식은 혁명적인 시도였습니다우리는 축구라는 게임을 통계 자료를 바탕으로 정의하고 있었으니까요.” Mylavaganam이 말한다.

 

1999년 스티브 맥클라렌을 맨체스터 유나이티드의 감독인 알렉스 퍼거슨 경이 데려가게 되고 맥클라렌은 맨체스터 유나이티드 측에 프로존을 활용할 것을 제안한다당시에 더비는 무료로 서비스를 누리고 있었는데 Mylavaganam은 맨체스터 유나이티드와 정식 계약을 요구하게 된다.이에 맨체스터 유나이티드는 트로피를 1개당 50,000을 지불하겠다고 약속했다. 1999년 맨체스터 유나이티드는 트레블을 달성했고 프로존은 이렇게 돈을 벌기 시작했다. 2000년 8월에 프로존은 6개의 프리미어 리그 클럽과 계약을 맺는데 성공하여Mylavaganam과 람세이는 각팀에 프로존 컨설턴트를 파견했다.


2000년 당시 볼턴 원더러스의 감독인 샘 앨러다이스가 Mylavaganam에게 연락을 한다. Mylavaganam은 볼턴과 같이 하부리그에 위치한 클럽이 프로존을 사용할 여력이 있는지 의구심을 품었으나 동시에 볼턴에서 프로존이 성공을 거둔다면 맨체스터 유나이티드의 트레블 못지않게 주목을 받을 수 있는 기회일 것이라 생각했다. 볼턴은 하부 리그에서 최초로 프로존을 도입한 클럽이 되었고 결국 챔피언십 플레이오프에서 프레스턴을 3:0으로 이기면서 프리미어 리그로 승격하게 되었다.


볼턴에서 앨러다이스 감독은 엄밀한 경기 플랜을 데이터를 기반으로 만들어냈다. 앨러다이스의 보좌진으로는 과거 프로존의 분석가인 데이비드 팔로우(David Fallows)가 있었고 앞서서 언급했던 설리와 휴즈 아래서 공부한 가빈 플레이그(Gavin Fleig)도 있었다. 앨러다이스 감독과 전력 분석관들은 '판타스틱4'라 불리는 경기를 승리하기 위한 4가지 요소 모델을 가지고 있었다. 우선 잔류를 위해서는 38경기에서 최소 16경기에서 실점하지 않아야한다는 것이었다. 볼턴은 자신들이 선제골을 기록할 경우 70% 확률로 경기에서 승리할 수 있다고 생각했고 또한 전체 득점의 1/3 가량의 세트 피스에서 만들어진다는 것을 알아냈다. 또한 세트 피스 상황에서도 인-스윙 크로스가 아웃-스윙 크로스보다 확률이 높다고 판단해 인-스윙 킥을 자주 연습했을 뿐만 아니라 동시에 인-스윙 코너킥을 방어하는 것도 연습하게 되었다. 


또한 앨러다이스 감독은 볼턴이 상대팀보다 속도 5.5m/s 이상으로 뛴 거리가 상대보다 길다면 지지않을 확률이 80%에 육박한다고 결론 내렸다. 또한 상대 진영 깊숙한 곳에서는 항상 롱스로인을 지시했고 만약 그 지시사항을 거부할 경우 앨러다이스 감독은 선수를 미친 듯이 갈궜다. 왜냐면 앨러다이스 감독의 판단으로는 짧은 스로인을 하는게 확률을 스스로 줄이는 행위였기 때문이다. 전력 분석관과 앨러다이스 감독의 오랜 연구 끝에 선수들을 공이 떨어질 확률이 가장 높은 위치에 배치시켰고 그로 인해 득점 가능성을 높였다. 2003년부터 2007년까지 볼턴은 연속해서 8위 이내로 리그를 마쳤고 이보다 꾸준한 모습을 보여준 클럽은 소위 빅4라 불린 팀 뿐이었다. 2005년에는 클럽 최초로 UEFA컵에 진출했고 2006년도 마찬가지였다. 앨러다이스 감독은 2007년 팀을 떠났지만 21경기에서 승점 39점을 획득하는 인상적인 기록을 남기고 볼턴을 떠났다.


앞서 언급한 <The Numbers Game>이란 저서에는 축구에서 기술 못지않게 행운이란 요소의 중요성에 대해서 언급한다. 득점 빈도는 적고 경기에서 우연한 상황에서 발생하는 경우가 44%를 차지하고 있다. 우세할 것으로 예상하는 팀이 항상 이기는 것도 아니다. 축구는 우연성이 지배하고 있는 스포츠지만 그렇다고 결과에 데이터가 아무런 영향을 미치지 못한다는 말은 아니다. 축구에 잠재된 예측 불가능성이 우리가 시행하는 분석을 더욱 의미깊게 만들고 있다. 중요한건 단순히 데이터가 아닌 데이터를 활용해 승리 방정식을 만들어내는 머리를 굴리는 것이다." 앤더슨 교수가 말한다. 





2013년 10월 11일, 잉글랜드는 웸블리 스타디움에서 몬테네그로와 월드컵 예선 경기를 치른다. 위의 그림은 프로존의 히트맵 기록이다. 빨간 부분은 에베턴 출신의 레프트백 레인턴 베인스가 경기 중에 활동한 영역에 대한 정보를 제공한다. 오른쪽 하단을 보면 베인스가 저 위치에서 코너킥을 처리했다는 것을 확인할 수 있다.


일반적으로 분석가들은 선수들의 뛴거리가 선수의 개인 퍼포먼스를 확인할 수 있는 좋은 지표라고 생각했고 또한 팀의 볼 점유율 수치가 승리와 강한 연관성을 지닌다고도 해석했다. 그러나 오늘날 들어서 그것이 점차 무의미하다는 것이 증명되고 있다. 이제는 단순히 뛴거리가 아닌 전력 질주 횟수가 더 중요해졌고 전방 1/3 지점에서의 볼 점유율이 승리와 더 높은 연관성을 지닌다는 것을 알게 되었다. 더 확실한 측정 방법이 경기에 대한 한층 높은 이해를 돕고 있다. 과거 프로존의 이사로 일했던 블레이크 우스터(Blake Wooster)는 이렇게 말한다. "우리는 선수 개인에 대해서만 생각하고 주변 상황에 대해서는 깜빡하는 경우가 많습니다. 예를 들자면, 바르셀로나의 리오넬 메시는 역사상 최고의 선수 중 하나지만, 만약 메시를 바르셀로나가 아닌 다른 팀에서 뛰게 할 경우는 어떻습니까? 주변 상황이 없는 철저한 공백 속에서 선수의 재능은 평가내릴 수 없습니다." 비슷한 맥락에서 현재 프로존은 단순한 선수 개인의 퍼포먼스가 아닌 주어진 상황과 결합한 선수의 퍼포먼스를 측정하기 위한 'Goal Expectation'이라고 불리는 모델을 개발해냈다.


이 모델은 슈팅이 시도되는 위치에 따른 가능성도 계산에 포함하여 골스코어러가 얼마나 훌륭한 경기력을 보여주는지 측정하게 된다. 지난 시즌에 가레스 베일은 전체 161회의 슈팅으로 21골을 기록했는데 'Goal Expectation' 모델로는 11골 득점이라는 결과가 나왔다. 즉 베일은 우리가 득점하기 어려울 것이라 전망하는 지점, 족히 30야드는 떨어진 지점에서 슈팅을 시도한 것이고 그걸 득점으로 연결지었던 것이다. (슈팅 대비 골 수라는) 단순한 기록이 아닌 상황을 곁들인 기록 해석을 통해서 베일이 높은 평가를 받고 있는지에 대해서 확인할 수 있었다. "





여전히 축구에서 가장 중요한 사항들은 측정되기 어려운 분야에 속하고 있다. 예를 들자면, 지난 10시즌간 프리미어 리그 데이터를 통해 분석했을 때 1득점은 평균적으로 승점 1점의 가치를 지녔으나 무실점은 평균적으로 2.5점의 가치를 만들어냈다. "우리의 직관과는 다르게 무실점이 실제 득점보다 더 가치있습니다. 그렇다면 우리는 나오지도 않는 득점에 대한 가치를 어떻게 조금 더 면밀하게 측정할 수 있을까라는 물음을 던지게 되고 보이지 않는 사건에 대해서도 손을 대기 시작하는 것이다." 앤더슨 교수가 말한다.


쉽게 이야기하면 공격은 공을 가지고 있는 상황을 토대로 측정할 수 있다. 슈팅, 패스, 크로스, 전력 질주 횟수같은 것들 말이다. 태클, 클리어링, 세이브 같은 기록은 공이 있는 상황에서 측정할 수 있지만 집단의 행동에 의해 발생하는 기록들. 가령 맨마킹, 공간으로 들어오는 패스를 차단하는 것, 수비수의 위치 선정같은 것들은 공이 없는 상황에서 발생하는 것이기 때문에 측정하기 까다롭다. 시티의 전력 분석관들은 현재 이 어려운 단계에 도전하고 있다. "우리는 현재 선수들이 동료들과 함께 시너지를 만들어내는 것에 대해 알아내기 위한 방법을 구상 중입니다. 여전히 많은 분석가들이 개별적인 변수와 선수 행동에 집중하고 있지만, 이제 우리의 핵심 목표는 이것이다 하고 선수들 사이의 상호작용을 이해할 수 있어야 한다." 마르케스가 말한다.


아래는 앞서 언급한 잉글랜드와 몬테네그로 경기에서 후반전 토트넘 핫스퍼의 안드로스 타운센드의 전력 질주를 기록한 자료이다. 노란색은 4~5.5m/s의 속도, 주황색은 5.5~7m/s, 빨간색은 7m/s 이상의 속도를 낸 경우를 표현한 것이다.





2011-2012시즌 매주마다 맨체스터 시티의 주장 뱅상 콤파니는 동료 수비수들과 함께 전력 분석관과 경기 분석에 동참해 자신들의 퍼포먼스에 대해 평가받았다. 윌슨은 당시의 상황을 이렇게 말한다. "선수들은 비디오와 통계 자료를 보면서 질문을 던집니다. 상대의 압박이 효율적인게 맞는지, 그로 인한 실책이 얼마나 나왔는지, 공을 빼앗길 경우 10초 내에 어떻게 움직여야하는지에 대해서 이야기를 합니다. 그렇게 분석을 통해서 수비 전술을 설정하게 됩니다. 굉장히 우수한 분석팀을 보유하고 있더라도 만약 거기서 생산해내는 유의미한 데이터가 선수들에게 영향을 주지 못한다면 경기에서 이길 수 없을겁니다." 


2011-2012시즌 맨체스터 시티는 리그에서 최소 실점을 기록한 팀이 되었고 윌슨은 "우리는 수많은 기록을 다시 세웠다. 수많은 찬사가 피치 위에서 고생한 이들에 대해 돌아 가야하겠지만, 30%는 우리가 철저하게 준비하여 선수들의 잠재 능력을 최대화시킨 것 때문 "이라고 자평했다. 


윌슨은 가장 중요한 경기인 QPR전을 시청하지 못했다. 시티는 맨체스터 유나이티드와 승점 동률 상황에서 골득실 차이로 우승을 확정지었는데 전반전에 맨체스터 시티가 1:0으로 앞선 채 전반전을 마쳤다. 그러나 후반전에 QPR이 2골을 기록했고 추가 시간이 2분 지난 상황에서 시티의 에딘 제코가 동점골을 기록했다. 그 때 유나이티드는 리그 최종전을 승리로 마쳤고 이대로 경기가 끝날 경우, 맨체스터 유나이티드의 리그 우승으로 시즌이 종료될 것이었다.


아래는 몬테네그로전 웨인 루니의 움직임을 기록한 것이다. 다니엘 스터리지와 대니 웰백이 최전방에서 뛰면서 루니는 조금 더 자유로운 경기를 펼칠 수 있었다.





제코의 득점이 나온지 2분 후에 세르히오 아게로가 충분히 슈팅을 시도할 수 있는 박스 근처에서 공을 잡았다. 앞에서 언급한 프로존의 'Goal Expectation' 모델에 따르면 공을 처음 받은 상황에서 아게로는 12%의 득점 확률을 가지고 있었다. 그러나 아게로는 바로 슈팅을 시도하지 않고 조금 더 전진한 위치, 본인의 득점 확률이 19%로 상승하는 곳에서 슈팅을 시도해 공은 결국 그물에 꽂히고 말았다. 




출처 : https://elitesportconsulting.wordpress.com/2014/01/04/data-analytics-in-football/



by Martin Eastwood


앞서 우리는 피타고리안 승점에 (정확히는 MPE 계산법) 대하여 논의했는데 이제부터 관심을 가져야할 사항은 예측 결과를 정확히 만들기 위해서 어느 수준까지의 데이터가 필요한가이다.


시즌의 어느 시점부터 예측 결과와 실제 결과가 일치하는 경향을 보이는지 조사하기 위해서 2011/2012시즌의 맨체스터 시티, 스완지 시티, 울버햄턴 원더러스의 프리미어 리그 경기 자료를 활용했다. 3팀을 선택한 이유는 각각이 리그 최상위팀, 리그 중위권, 리그 하위권을 대표하기 때문이다. 매주 시행된 프리미어 리그 경기 결과를 활용하며 이 3클럽의 시즌 마지막 예상 승점의 변화 정도를 계산했다. 아래 있는 자료는 각 라운드별로 계산된 MPE 승점이 실제 최종 승점과 어느 정도로 다른가에 대해 말해준다. 






위의 결과를 살펴보면, 맨체스터 시티는 딱 3경기만에 나름대로 정확한 예측을 할 수 있었다. 고작 3경기 지났을 뿐인데 평균 제곱근 오차(RMSE)가 단지 1.96에 지나지 않았다. 우리는 단 3경기 만에 MPE 방정식을 통해서 맨체스터 시티의 최종 승점을 정확하게 예측해냈다. 오차의 크기는 승점 2점이 채 되지 않는다.


스완지 시티 같은 경우는 맨체스터 시티와는 다른 모습을 보였는데 이들은 리그 첫 4경기동안 골을 기록하지 못했다. MPE 방정식은 타당한 승점 예측을 위해서 반드시 득점을 필요로 한다. 스완지 시티는 5라운드인 웨스트 브롬위치 알비언전에서 3골을 넣으며 3:0 승리를 거두었고 그 때부터 예측 결과는 상당히 안정화 되었으며 6경기 이후부턴 실제 결과와 오차 범위 3점 내에서 예측값이 이동했다.


한편, 울버햄턴은 스완지와는 완전히 반대의 상황에 놓였다. 울버햄턴이 시즌 첫 3경기에서 2승 1무의 성적을 거두면서 그 때까지 울버햄턴의 최종 승점 예측은 83점까지 치솟았다. 그러나 이후 울버햄턴이 5연패를 기록하면서 상황은 그들에게 굉장히 안좋게 돌아갔고 예측 승점은 결국 30점까지 떨어졌다. 결국 울버햄턴은 승점 25점을 기록하면서 리그를 최하위로 마감했다.


전반적으로 MPE 방정식은 굉장히 안정적인 결과 예측값을 제공하며 그런 예측이 가능하기 위해서는 반드시 그 팀의 득점을 필요로 한다. 그래프에서 확인할 수 있듯이 이 예측법은 시즌 초기부터 굉장히 정교한 결과를 제공한다. 




출처 : http://pena.lt/y/2013/01/02/how-early-in-the-season-can-pythagorean-predictions-be-made/