다비드 데 헤아는 올시즌 수많은 찬사를 받고 있다. 우리는 통계를 통해서 그가 맨체스터 유나이티드에게 얼마나 중요한 선수인지를 확인할 수 있다. 


지난 12월 맨체스터 유나이티드가 아스날을 3-1로 이긴 경기에서 다비드 데 헤아는 아주 뛰어난 선방쇼를 보여주었고 엄청난 찬사를 받았다. 현재 다비드 데 헤아가 골문을 지키는 맨체스터 유나이티드는 프리미어 리그 16실점으로 최소 실점 1위를 달리고 있으며 데 헤아는 23경기 중 13경기를 무실점으로 마무리했다.


하지만 숫자를 들여보면 더 많은 것을 알 수 있다. 옵타(Opta)의 기대득점 모델(Expected Goals on Target model, xGoT)에 따르면, 데 헤아는 총 13.8골을 막아냈다. xGoT 통계는 통계적으로 몇차례 골을 먹힐만 했는가를 보여주는 값이다.


총 13.8골을 막아낸 데 헤아는 다른 프리미어 리그 골키퍼들보다 월등히 앞서있다. 이번 주 터프 무어에서 데 헤아와 맞대결을 펼치는 번리의 닉 포프가 데 헤아 다음으로 많은 골을 막아낸 선수다.





지난 8월 톰 히튼이 부상당한 이후 번리의 골문을 지키고 있는 포프는 20경기에서 단 16실점만을 허용했다. xGoT 통계에 따르면 닉 포프는 지금까지 8.1골을 막아냈다.


xGoT 통계상 3번째로 많은 골을 막아낸 선수는 스완지 시티의 루카스 파비앙스키다. 파비앙스키는 2.3골을 막아냈고 그 뒤를 0.3골을 막아낸 첼시의 티보 쿠르트와가 잇고 있다.


에버튼의 조던 픽포드는 기대득점 통계 관점에서 음수값을 기록하지 않은 또 다른 선수다. 한편 벤 포스터는 기대득점 통계상 20.1골을 실점할 것으로 예상되나 총 29골을 내준 선수로 가장 낮은 순위에 이름을 올렸다. 벤 포스터와 스토크 시티의 조던 픽포드 (-6.6골), 허더스필드의 요나스 로슬(-6.4골)은 하위 3명의 골키퍼다. 




2017/2018시즌 xGoT 랭킹 (최소 10경기 이상 출전한 선수들만 고려)


선수경기 수실점

기대실점

막아낸 골 수
다비드 데 헤아231629.813.8
닉 포프201624.18.1

루카스 파비앙스키

233537.32.3

티보 쿠르트와

231616.30.3

조던 픽포드

233838.00.0

줄리안 스페로니

111413.4-0.6

에데르송

231716.3-0.7
시몽 미뇰레192423.2-0.8
웨인 헤네시121918-1.0

롭 엘리엇

162119.2-1.8
아스미르 베고비치233533.2-1.8
매튜 라이언232927-2.0
캐스퍼 슈마이켈233229.4-2.6
페트르 체흐233027.3-2.7
에우렐리요 고메스233936.3-2.7

위고 요리스

222118.1-2.9
프레이져 포스터203026.4-3.6
조 하트143025.5-4.5
요나스 로슬233932.6-6.4
잭 버틀란드204336.4-6.6
벤 포스터222920.1-8.0




출처 : http://www.skysports.com/football/news/11661/11212584/david-de-gea-premier-leagues-top-performing-goalkeeper-stats-reveal?utm_source=t.co&utm_medium=referral

 

 

by Daivd Sumpter

 

통계학적 관점에서 축구 경기 결과의 노이즈(noise)는 신호(signal)만큼 크다. 그래서 글로 쓰는 자세한 매치 리포트와 토요일 밤 TV에서 진행하는 분석이 일치하는 것은 굉장히 어렵다. 결과는 오직 소량의 인사이트(insight)만 제공할 뿐이다. 두팀이 실제로 얼마나 잘 경기를 펼쳤는가를 단순 1경기 결과만으로 알 수는 없다.

 

수학적으로 포아송 분포(Poisson distribution)을 활용하여 이 현상을 즉시 설명할 수 있다. 골은 포아송 분포를 따른다. 각팀은 경기당 평균적으로 1.4골을 기록하며 포아송 분포에서는 평균과 분산의 크기가 동일하다. 따라서 표준편차의 크기는 1.4의 제곱근인 1.18이다. 따라서 노이즈 값이 1.18, 신호값이 1.4 로 노이즈에 비해 조금 클 뿐이다. 

 

만약 수학을 믿지 않는다면 이렇게 생각해보자. 맨체스터 시티는 허더스필드를 상대로, 아스날은 번리를 상대로 경기 종료 직전에 나온 득점으로 가까스로 승리했다. 축구는 골이 적게 나오는 스포츠다. 골이 적게 나온다는 말은 곧 근소한 차이로 승패가 결정된다는 것과 같다. 신호(강팀이 갖는 이점) 는 노이즈(축구에서는 어떠한 일도 발생할 수 있다는 사실) 보다 조금 클 뿐이다.

 

그래서 축구에 대해 분별 있는 글을 작성하기가 어렵다. 대중은 최근 경기 결과에 관심을 둔다. 만약 저널리스트가 "글쎄 그 결과들은 대다수 노이즈에 불과하니까 열광할 이유가 없어" 식의 글을 쓴다면 굉장히 지루할 것이다.

 

기대득점(expected goals)은 한 가닥의 희망을 준다. 기대득점은 각 팀이 생산한 찬스의 퀄리티를 측정한다. 따라서 단순한 득점보다 기대득점이 한 경기 내에서 더 많은 정보를 줄 수 있다. 일반적으로 기대득점은 더 많은 신호를 포함하며 노이즈는 작다.

 

이제 우리는 축구를 주제로 글을 쓸 때, 기대득점을 어떻게 활용해야 하는가에 대한 경험적 규칙을 마련해보고자 한다. 아래 그림은1시즌간의 퍼포먼스 측정 과정에서 노이즈의 크기(y축)가 경기수(x축)에 따라 어떻게 변화하는지 보여준다. 이 결과를 바탕으로 기대득점을 어떻게 활용하여 글을 작성해야 하는지에 대해 이야기 해보고 싶다. 절대적인 기준은 아니지만 충분한 도움이 되리라 생각한다.

 

 

1~2경기 : 실제득점, 기대득점 모두 상당한 크기의 노이즈 값을 갖는다. 따라서 2경기 까지는 무슨 일이 일어났는지, 전술, 선수의 움직임에만 중점을 둔 매치 리포트 작성을 추천한다. 현재의 플레이가 장기적으로 어떤 의미를 갖는지 추측하는 보도는 권하지 않는다. 2경기 만으로 트렌드를 확인할 수 없고, 기대득점 통계로도 트렌드를 확인해볼 수 없다. 펀딧들이 "기대득점 통계 상으로 승리했다." 라고 표현할 수 있지만 그건 실제 스코어 이상의 의미를 가지지 못한다.

 

3~6경기 : 만약 연승 또는 연패를 이어가고 있다면, 3~6번째 경기부터는 그 팀에 대한 명확한 그림을 그릴 수 있다. 여기서부터는 기대득점 활용이 효과가 있다. 이 구간에서 기대득점의 노이즈값은 경기당 0.5골 미만으로 떨어져 실제득점보다 더 많은 인사이트를 제공한다. 만약 기대득점과 실제득점이 정반대 이야기를 하고 있다면, 이 경기는 두 눈으로 확인한 것보다 한팀이 훨씬 나쁜 (혹은 좋은) 결과를 받았다고 말해주어야 한다.

 

7~16경기 : 이 구간은 기대득점 저널리즘에서 가장 흥미로운 구간이다. 이제 실제득점도 합리적인 퍼포먼스 측정도구가 되었다. 행운이 10경기 넘게 따라주긴 어려우며 팀이 정말로 형편없지 않는 이상 10경기 연속으로 나쁜 결과만 받아들이진 않는다. 만약 기대득점과 실제득점이 서로를 부정한다면, 두가지 방법을 비교하여 이야기를 풀어가면 된다. 올시즌 번리가 그 예시라 할 수 있다. 번리는 굉장히 낮은 기대득점 값을 기록 중인데, 결과는 정말 잘 얻어내고 있다. 두가지 통계의 괴리 현상을 설명할 요인을 발견해내는 것은 충분한 가치가 있는 일이다.

 

17경기 이후 : 16경기 이후부터 기대득점의 노이즈값과 실제득점의 노이즈값 차이는 경기당 0.1골에 불과하다. 이제 실제값과 예측값의 차이는 작아졌고 이제부터는 기대득점 예측모델이 틀릴 수 있다는걸 무시할 수 없다. 기대득점은 수학적 모델이다. 수학적 모델은 결코 현실이 아니다. 하지만 실제 기록된 득점이 현실이다. 만약 경기당 0.1골의 우위를 가져올 선수, 감독 혹은 멘탈리티가 있다면 이제는 기대득점보다 실제득점을 활용하는 것이 낫다. 시즌이 진행될수록 기대득점 테이블의 의미는 줄어들게 된다. 따라서 이 구간부터는 실제 기록된 득점에 집중해야 한다.

 

(중략...)

 

빨간 커브는 경기당 1.4골이 기록되는 실제 득점에 기반하여 득점의 에러값(노이즈)을 표현한 그래프다. 에러가 1.4/n의 제곱근 값에 비례한다고 가정했고 여기서 n은 경기 수를 의미한다. 포아송 분포의 신뢰구간을 측정할 수 있는 방법은 최소 19가지가 존재하는데 여기서 가장 간단한 방법을 쓰기로 했다. n의 크기가 커질수록 훨씬 믿을 수 있는 값을 제공한다.

 

파란색 커브는 올시즌 현재까지의 기대득점 통계를 바탕으로  득점의 노이즈를 표현한 그래프다. 기대득점 모델에서 분산의 크기가 0.61로 나왔다. 따라서 여기에서는 에러의 값을 0.61/n의 제곱근에 비례한다고 가정했다. 마찬가지로 여기서도 n은 경기 수를 의미한다. 분산의 추정값인 0.61은 결코 완벽한 값은 아니다. 각자의 방식으로 분산을 추정할 수 있으며, 그에 따라 기대득점 모델의 그래프 모형은 달라질 수 있다.

 

 

 

출처 : https://medium.com/@Soccermatics/should-you-write-about-real-goals-or-expected-goals-a-guide-for-journalists-2cf0c7ec6bb6

 

 

 

   



by Sam Gregory


2015년 아스날 매거진과의 인터뷰에서 아르센 벵거는 단순히 어시스트 기록과 기회 창출 통계량만을 고려하는 위험에 대해 이야기했다. 벵거는 어시스트와 기회 창출 통계만을 고려할 경우, 마지막 패스 혹은 슈팅 이전에 기여하는 선수들의 중요한 가치에 대해 파악할 수 없을 것이라 말했다.


"포지셔닝, 볼 배급의 퀄리티도 중요하다. 어시스트만 따져서는 안 된다. 산티 카솔라 같은 선수들은 굉장히 타이트한 압박을 뚫고 나올 때가 있으며 때로는 어시스트 이전 상황의 패스를 연결시키기도 한다. 그런 행위들이 어시스트보다도 더 어려울 때가 있다."


이번 분석에서 우리는 슈팅으로 상황이 종료되는 sequence를 중점적으로 다뤘고 특정 sequence 내에서 선수가 단 1번이라도 공을 터치할 경우, sequence에 개입했다고 평가했다.


※ sequence : 플레이의 흐름, sequence는 상대팀의 수비 행위, 경기 중단, 자기 팀의 슈팅 시도로 인해 종료된다. 


2016/2017시즌 프리미어 리그 데이터를 사용해, 우리는 슈팅으로 마무리 된, 오픈 플레이 상황 sequence에 누가 많이 개입했는지 알아보았다.




 

지금부터는 오픈 플레이 sequence가 득점으로 마무리 된 상황에서 어떤 선수가 많이 관여했는가를 알아보자. 우리는 sequence가 종료되는 시점에 나오는 슈팅의 기대득점(xG) 값을 사용하기로 했다. 기대득점 통계가 슈팅의 퀄리티와 찬스의 위협적인 수준을 잘 반영하는 지표이기 때문이다. 아래 표는 오픈 플레이 sequence가 슈팅으로 마무리 될 때, 기대득점의 총합을 바탕으로 선수들의 기여도를 순위화 한 것이다.





기대득점의 개념을 추가했음에도, 리스트에서 놀라운 이름을 발견할 수 없었다. 우리는 선수가 sequence에 개입하는 시점에 대해서 더 알아보고자 했다. 


sequence가 시작될 때 공을 소유하는 선수와 sequence를 마무리 짓는 슈팅을 실제 시도하는 선수 사이의 큰 차이가 존재할 수 밖에 없다. 


아래는 sequence가 시작되는 순간에 개입한 선수의 기록만을 고려한 통계이다. 리바운드 상황에서의 슈팅처럼, 오로지 슈팅만 존재하는 sequence는 분석에서 제외했다.


(첫번째, 슈팅으로 마무리된 오픈 플레이 sequence에 많이 개입한 선수 랭킹 / 두번째, 기대득점을 기준으로 랭킹을 내렸을 때 선수 랭킹)






자, 이제 기존과 다른 선수들이 이름을 올리는걸 확인할 수 있다. 제임스 워드-프라우스, 안데르 에레라, 프란시스 코클랭은 순수하게 sequence에 관여한 것만 따졌을 때, 볼 수 없었던 이름이다. 하지만 이들은 위협적인 sequence의 시작을 책임진 선수들이다.


크리스티안 에릭센, 케빈 데 브라이너는 양쪽 모두에서 이름을 올렸다. 따라서 에릭센과 데 브라이너는 각 구단의 위협적 sequence의 시작과 그 sequence를 이어가는 과정에 있어 필수적인 선수라고 할 수 있다.


이제는 더 깊게 파고드는 분석을 시작한다. 각 구단의 축구 철학과 관련된 모수를 생성하는 것이다. 이제 우리는 전환(transition) 상황에서 가장 위협적인 선수를 알아보고자 한다. 따라서 우리는 transition sequence를 정의내릴 필요가 있다. 여기서 우리는 아군의 수비 진영에서 시작하여 상대의 수비 진영에서 끝나는 sequence를 transition sequence라 정의내릴 것이다.


똑같은 방법론을 적용하여 슈팅으로 마무리 된 transtition sequence 상황에서 기대득점(xG) 순으로 선수를 나열해보았다. 낮게 내려서 수비하다가 공격으로 전환하는 과정에 개입하는 선수를 확인할 수 있다. 





이번 분석에서는 sequence의 성공 기준을 슈팅 혹은 슈팅의 기대득점값으로 평가했다. 하지만 똑같은 분석을 파이널 서드 진입 횟수, 페널티 박스 진입 횟수 기준으로 시행할 수 있을 것이다. 이러한 방식의 분석은 기존의 공격 메트릭(metrics)을 뛰어넘는 통찰을 제공해줄 수 있으며 평가절하되던 선수의 기여를 더욱 잘 이해할 수 있게 해줄 것이다.  



출처 : http://www.optasportspro.com/about/optapro-blog/posts/2017/blog-how-we-assign-credit-in-football/