Search

'베이지안 추정'에 해당되는 글 1건

  1. 2018.07.23 베이지안 추정을 활용해 최고의 페널티킥 키커를 알아보자.



페널티킥에 대해 신뢰성 있는 데이터를 발견하기가 어렵다. 우리가 할 수 있는 최대치는 굉장히 제한된 리스트(보통 리그 상위 10명, 월드컵 페널티킥 기록)를 갖는 수준에 머무른다. 페널티킥 골은 문서로 남기는 과정에서 아주 명백하게 표시되며 쉽게 기록할 수 있는 득점임에도 불구하고 완벽한 페널티킥 데이터를 완성하는건 쉬운 일이 아니다. 페널티킥 실축 데이터가 굉장히 부족하기 때문이다. 나는 트랜스퍼마르크트(Transfermarkt) 데이터를 사용하려 했으나 이곳의 데이터가 정확하지 않다는걸 알게 되었다.


나는 영어로만 자료검색하는 것에서 벗어나 "역대 최고의 페널티 키커"를 이탈리아어로 검색해보았고 결과는 성공적이었다. 나는 아주 인상적인 페널티킥 데이터베이스를 갖춘 <Sdoppiamo Cupido>라는 블로그를 발견했다. 이 블로그는 선수들의 페널티킥 시행 횟수 뿐만 아니라 득점을 성공한 경우, 실축한 경우까지 모두 기록을 남겨놓았다. 


나는 이들이 정리해놓은 데이터와 요근래 선수들의 데이터를 합쳐 새로운 데이터셋을 만들었고 이후 이야기는 내가 새로 만들어낸 데이터셋을 바탕으로 이어가고자 한다. 새롭게 만들어진 리스트는 자주 페널티킥을 차는 페널티 키커를 대다수 포함하고 있다. 하지만 모든 선수를 빠짐없이 포함했다고 볼 수는 없다. 이 데이터는 유럽과 남미에서 활약한 선수들, 즉 우리에게 굉장히 잘 알려진 선수들을 조사한 데이터이기 때문이다. 우리에게 잘 알려지지 않은 리그에서 페널티킥을 굉장히 잘 차는 선수가 있을 수 있다. 


또한 몇몇 선수들의 실축 데이터를 찾기가 불가능했다. 호마리우, 지쿠, 엔초 프란세스콜리, 소크라테스, 푸스카스 등이 실축 데이터를 찾는 것이 불가능해 불행하게도 이들을 분석에서 제외하기로 했다.


우리가 가진 데이터 그 자체를 살펴보기로 하자. 전체 12,649회의 페널티킥을 484명의 선수가 처리했다. 각 선수의 페널티킥 시행 횟수와 득점은 첫번째 그림 Fig-1.을 통해서 확인할 수 있다.


<Fig-1>



가장 기본적인 분석은 전환율(conversion rate)을 살펴보는 것이다. 페널티킥 득점 수를 페널티킥 시행횟수로 나누어 각 선수의 전환율을 확인할 수 있다. 이는 가장 기본적인 모수로 0과 1사이의 값을 갖는다. 일반적으로 전환율 값이 높을수록 더 뛰어난 페널티 키커라고 말할 수 있다. 조사 대상이 되는 12,649회 페널티킥 중 10,402회의 페널티킥이 득점으로 이어졌고 전체 전환율은 82.2%라 할 수 있다. 각 선수의 페널티킥 시행 횟수와 선수 각각의 전환율은 두번째 그림 Fig-2.를 통해 확인할 수 있다. 


<Fig-2>



전환율은 선수의 페널티킥 능력을 비교할 수 있는 타당한 지표지만, 전적으로 전환율만 가지고서 선수의 페널티킥 능력을 평가하기는 어렵다. 세번째 그림, Fig-3을 통해서 확인할 수 있듯이, 선수들은 비교적 적은 횟수의 페널티킥을 시행한다. 따라서 단순 평균값으로 대표성을 지니기는 어렵다고 생각한다.



<Fig-3>



선수의 페널티킥 처리능력을 비교하는 과정에서 발생하는 곤란한 문제는 다음과 같다 : '10번 시도해서 9번 성공하는 선수, 40번 시도해서 36번 성공하는 선수 중에 누가 더 뛰어난가?' 혹은 '10번 시도해서 10번 성공한 선수와 100번 시도해서 98번 성공한 선수의 우열은 어떻게 가릴 것인가?' 물론 우리는 전환율을 이용해 비교해 두 선수의 우위를 가릴 수도 있겠지만, 무언가 잘못 되었다는 생각이 들 것이다. 우리는 이 수치들을 변환해야만 한다.


선수들의 페널티킥 처리능력을 더욱 잘 반영할 수 있는 지표를 만들기 위해서 우리는 페널티킥 전환율을 변형해야 하고 이 변형은 2가지 관점에서 진행된다.


1. Fig-3에서 확인할 수 있듯이, 페널티킥 시행횟수가 (다른 선수들과 비교하여) 상당히 적은 선수가 있다는걸 고려한다. 여기서 우리는 경험적 베이즈 추정법(Empirical Bayes estimation)을 사용하여 각 선수의 평균적인 페널티킥 전환율이 향상되도록 변환할 것이다. 우선 우리가 가진 페널티킥 데이터 전환율의 사전 분포(prior distribution)로 베타 분포를 사용할 것이다. (Fig-4) 사전 분포에 각 선수의 데이터를 합쳐 전환율의 추정값을 업데이트한다.


2. 페널티킥을 잘 차는 선수가 더 많은 페널티킥을 처리할 것이라는 사실을 고려한다. 우리는 이러한 사실을 Fig-2에서 확인한 바 있다. 페널티킥 시행횟수가 많아질수록 전환율이 높아지는 경향이 있다는걸 확인했다. 우리는 페널티킥을 적게 차는 선수의 성공률을 과대평가하고 많이 차는 선수의 전환율을 과소평가하는 문제를 마주하는데, 이 문제를 해결하고자 우리는 Beta-binomial 회귀를 사용할 것이다. 이 때 사전 분포를 만드는 과정에서 페널티킥 시행 횟수를 고려하게 된다. 



<Fig-4>



2가지 관점에서 변환하여 우리는 다섯번째 그림, Fig-5를 얻을 수 있다.



<Fig-5>



첫번째 그래프 : 페널티킥 전환율에 대한 초기 추정


두번째 그래프 : 사전 분포와 각 선수의 페널티킥 데이터를 합친 이후의 전환율


세번째 그래프 : 각 선수의 페널티킥 시행횟수까지 고려한 전환율


Fig-5에서 우리는 오른쪽으로 갈수록 각 데이터가 추세선에 가까워짐을 확인할 수 있다. 그래프를 통해 확인할 수 있듯이, 모든 선수가 변환 절차를 동등한 수준으로 적용받는건 아니다. 페널티킥을 더 많이 시도하는 선수는 적게 영향을 받으며, 이는 페널티킥을 많이 시행하는 선수들의 초기 전환율 값이 상당히 대표성을 지닌 값이라는걸 의미하기에 타당한 결과라고 볼 수 있다.


물론 몇가지 가정이 들어간다. 모든 페널티킥 상황이 동등하다는 가정이 첫번째다. 모두 동일한 조건에서 킥을 실시하며 페널티킥이 골로 연결될 확률이 모두 동일하다는 가정이 있다. 하지만 이는 결코 사실이 아니다. 하지만 충분히 용납할 수 있는 가정이라 생각한다. 몇가지 요인들은 페널티킥 상황을 더욱 어렵게 만든다 : 골키퍼의 수준, 경기 상황, 심리적 요인, 경기장 날씨... 하지만 이러한 요인들을 무시하고 진행하도록 하자.


앞서 언급한 접근법을 통해 우리는 각 선수의 페널티킥 전환율에 대한 확률 분포를 만들어낼 수 있다. 사전 분포와 각 선수의 데이터를 합쳐서 만든 사후 분포(posterior distribution)이라 할 수 있다. 


Fig-6는 로베르토 바죠와 리오넬 메시의 전환율을 모든 선수들의 사전 분포와 비교한다. Fig-6에서 우리는 바죠가 메시보다 더 뛰어난 페널티 키커라는걸 확인할 수 있다. (바죠의 그래프가 더 오른쪽에 있다) 그리고 메시가 평균적인 페널티 키커보다 페널티킥 처리 능력이 부족하다는걸 확인할 수 있다. 바죠의 그래프가 메시의 그래프보다 높이가 높고 폭이 좁은 것은 바죠가 메시보다 더 많은 페널티킥을 시도했다는 의미를 갖는다. (바죠 133회, 메시 107회) 사실 데이터 전체에서 바죠는 가장 많은 페널티킥을 시도한 선수고 그 뒤를 크리스티아누 호날두(128), 토티(113)가 잇는다.



<Fig-6>



Fig-7은 전환율 분포를 비교하는 또 다른 예시다. 여기서는 맷 르 티시에, 디에고 마라도나, 마렉 함식을 비교한다.



<Fig-7>



이 그래프를 바탕으로 각 선수들의 페널티킥 능력을 비교할 수 있지만, 3명 이상의 선수를 동시에 비교할 경우 시각적인 부분에서 비교하기 어려운 상황이 발생할 수 있다. 이러한 상황이 발생할 경우 신뢰구간을 만들어 해결할 수 있다. Fig-8은 각 선수들의 페널티킥 성공 사후 분포에 대한 95% 신뢰구간이며, 중위수 위치를 표시해놓았다. Fig-8은 전체 484명 중 상위 10명, 하위 10명에 대한 그림이다.



<Fig-8>



데이터 분석 결과, 콰우테모크 블랑코가 가장 뛰어난 페널티 키커라는 결과가 나왔다. (71골/73회 페널티킥) 그 뒤를 그라함 알렉산더(77/83)와 맷 르 티시에(49/50)가 뒤따르고 있다. 최악의 페널티 키커 3인은 마렉 함식(7/15), 마리노 페라니(10/19), 에딘 제코(7/14)이다.


상위 100명에 대한 데이터는 Fig-9를 통해 확인할 수 있다. 우리에게 익숙한 선수 이름을 확인할 수 있을 것이다.



<Fig-9>



각 선수의 전환율 그래프를 이용하는 또 다른 방법은 한 선수가 다른 선수보다 더 뛰어날 확률을 계산하는 것이다. Fig-6에서 본 그래프를 바탕으로 바죠가 메시보다 뛰어난 페널티 키커일 확률이 87.1%라는걸 계산해낼 수 있다. 계산 결과를 바탕으로 우리는 블랑코가 세계에서 가장 뛰어난 페널티 키커라고 말할 수 있겠지만, 틀림없이 확실하다고는 말할 수 없다. 앞서 소개한 방법론을 적용했을 때, 블랑코는 다른 483명의 선수보다 더 뛰어난 페널티 키커일 확률이 높았고 맷 르 티시에보다 더 뛰어난 페널티 키커일 확률은 66%였다.




출처 : https://barcanumbers.wordpress.com/2018/03/27/the-best-penalty-takers-of-all-time/