by Daivd Sumpter

 

통계학적 관점에서 축구 경기 결과의 노이즈(noise)는 신호(signal)만큼 크다. 그래서 글로 쓰는 자세한 매치 리포트와 토요일 밤 TV에서 진행하는 분석이 일치하는 것은 굉장히 어렵다. 결과는 오직 소량의 인사이트(insight)만 제공할 뿐이다. 두팀이 실제로 얼마나 잘 경기를 펼쳤는가를 단순 1경기 결과만으로 알 수는 없다.

 

수학적으로 포아송 분포(Poisson distribution)을 활용하여 이 현상을 즉시 설명할 수 있다. 골은 포아송 분포를 따른다. 각팀은 경기당 평균적으로 1.4골을 기록하며 포아송 분포에서는 평균과 분산의 크기가 동일하다. 따라서 표준편차의 크기는 1.4의 제곱근인 1.18이다. 따라서 노이즈 값이 1.18, 신호값이 1.4 로 노이즈에 비해 조금 클 뿐이다. 

 

만약 수학을 믿지 않는다면 이렇게 생각해보자. 맨체스터 시티는 허더스필드를 상대로, 아스날은 번리를 상대로 경기 종료 직전에 나온 득점으로 가까스로 승리했다. 축구는 골이 적게 나오는 스포츠다. 골이 적게 나온다는 말은 곧 근소한 차이로 승패가 결정된다는 것과 같다. 신호(강팀이 갖는 이점) 는 노이즈(축구에서는 어떠한 일도 발생할 수 있다는 사실) 보다 조금 클 뿐이다.

 

그래서 축구에 대해 분별 있는 글을 작성하기가 어렵다. 대중은 최근 경기 결과에 관심을 둔다. 만약 저널리스트가 "글쎄 그 결과들은 대다수 노이즈에 불과하니까 열광할 이유가 없어" 식의 글을 쓴다면 굉장히 지루할 것이다.

 

기대득점(expected goals)은 한 가닥의 희망을 준다. 기대득점은 각 팀이 생산한 찬스의 퀄리티를 측정한다. 따라서 단순한 득점보다 기대득점이 한 경기 내에서 더 많은 정보를 줄 수 있다. 일반적으로 기대득점은 더 많은 신호를 포함하며 노이즈는 작다.

 

이제 우리는 축구를 주제로 글을 쓸 때, 기대득점을 어떻게 활용해야 하는가에 대한 경험적 규칙을 마련해보고자 한다. 아래 그림은1시즌간의 퍼포먼스 측정 과정에서 노이즈의 크기(y축)가 경기수(x축)에 따라 어떻게 변화하는지 보여준다. 이 결과를 바탕으로 기대득점을 어떻게 활용하여 글을 작성해야 하는지에 대해 이야기 해보고 싶다. 절대적인 기준은 아니지만 충분한 도움이 되리라 생각한다.

 

 

1~2경기 : 실제득점, 기대득점 모두 상당한 크기의 노이즈 값을 갖는다. 따라서 2경기 까지는 무슨 일이 일어났는지, 전술, 선수의 움직임에만 중점을 둔 매치 리포트 작성을 추천한다. 현재의 플레이가 장기적으로 어떤 의미를 갖는지 추측하는 보도는 권하지 않는다. 2경기 만으로 트렌드를 확인할 수 없고, 기대득점 통계로도 트렌드를 확인해볼 수 없다. 펀딧들이 "기대득점 통계 상으로 승리했다." 라고 표현할 수 있지만 그건 실제 스코어 이상의 의미를 가지지 못한다.

 

3~6경기 : 만약 연승 또는 연패를 이어가고 있다면, 3~6번째 경기부터는 그 팀에 대한 명확한 그림을 그릴 수 있다. 여기서부터는 기대득점 활용이 효과가 있다. 이 구간에서 기대득점의 노이즈값은 경기당 0.5골 미만으로 떨어져 실제득점보다 더 많은 인사이트를 제공한다. 만약 기대득점과 실제득점이 정반대 이야기를 하고 있다면, 이 경기는 두 눈으로 확인한 것보다 한팀이 훨씬 나쁜 (혹은 좋은) 결과를 받았다고 말해주어야 한다.

 

7~16경기 : 이 구간은 기대득점 저널리즘에서 가장 흥미로운 구간이다. 이제 실제득점도 합리적인 퍼포먼스 측정도구가 되었다. 행운이 10경기 넘게 따라주긴 어려우며 팀이 정말로 형편없지 않는 이상 10경기 연속으로 나쁜 결과만 받아들이진 않는다. 만약 기대득점과 실제득점이 서로를 부정한다면, 두가지 방법을 비교하여 이야기를 풀어가면 된다. 올시즌 번리가 그 예시라 할 수 있다. 번리는 굉장히 낮은 기대득점 값을 기록 중인데, 결과는 정말 잘 얻어내고 있다. 두가지 통계의 괴리 현상을 설명할 요인을 발견해내는 것은 충분한 가치가 있는 일이다.

 

17경기 이후 : 16경기 이후부터 기대득점의 노이즈값과 실제득점의 노이즈값 차이는 경기당 0.1골에 불과하다. 이제 실제값과 예측값의 차이는 작아졌고 이제부터는 기대득점 예측모델이 틀릴 수 있다는걸 무시할 수 없다. 기대득점은 수학적 모델이다. 수학적 모델은 결코 현실이 아니다. 하지만 실제 기록된 득점이 현실이다. 만약 경기당 0.1골의 우위를 가져올 선수, 감독 혹은 멘탈리티가 있다면 이제는 기대득점보다 실제득점을 활용하는 것이 낫다. 시즌이 진행될수록 기대득점 테이블의 의미는 줄어들게 된다. 따라서 이 구간부터는 실제 기록된 득점에 집중해야 한다.

 

(중략...)

 

빨간 커브는 경기당 1.4골이 기록되는 실제 득점에 기반하여 득점의 에러값(노이즈)을 표현한 그래프다. 에러가 1.4/n의 제곱근 값에 비례한다고 가정했고 여기서 n은 경기 수를 의미한다. 포아송 분포의 신뢰구간을 측정할 수 있는 방법은 최소 19가지가 존재하는데 여기서 가장 간단한 방법을 쓰기로 했다. n의 크기가 커질수록 훨씬 믿을 수 있는 값을 제공한다.

 

파란색 커브는 올시즌 현재까지의 기대득점 통계를 바탕으로  득점의 노이즈를 표현한 그래프다. 기대득점 모델에서 분산의 크기가 0.61로 나왔다. 따라서 여기에서는 에러의 값을 0.61/n의 제곱근에 비례한다고 가정했다. 마찬가지로 여기서도 n은 경기 수를 의미한다. 분산의 추정값인 0.61은 결코 완벽한 값은 아니다. 각자의 방식으로 분산을 추정할 수 있으며, 그에 따라 기대득점 모델의 그래프 모형은 달라질 수 있다.

 

 

 

출처 : https://medium.com/@Soccermatics/should-you-write-about-real-goals-or-expected-goals-a-guide-for-journalists-2cf0c7ec6bb6