슈팅 위치 데이터를 시각화하는 다양한 방법이 존재한다. 수많은 정보를 담아내는 동시에 단번에 알아볼 수 있게 만드는 것은 어려운 일이다. 그래서 나는 군집 분석을 사용하기로 했다. K-평균 군집분석(k-means clustering)은 n개의 데이터 포인트를 k개의 군집으로 요약하는 것이다. (이번 글의 경우에는 슈팅이 시도되는 위치가 데이터의 대상이 되고, 시즌이 진행되면서 데이터의 갯수는 충분히 커질 것이다. 또한 k는 2~8 사이의 적당한 숫자로 우리가 정한다.)


따라서 우리는 k개의 군집 중 하나의 군집에 슈팅 위치(shot location) 데이터를 분류해낼 수 있다. 각 군집은 군집에 속한 데이터들과 중심점에 의해 결정된다. 


우리는 각 군집의 중심이 각 군집의 특성을 잘 대표하길 원한다. 다른 말로 표현하자면, 각 군집의 중심점은 군집 내에 속한 각 데이터와의 거리를 최소화시키는 점이다. 그렇게 해야 군집 분석의 비용을 최소화할 수 있다.


이제 2016/2017시즌 사디오 마네의 슈팅 위치를 살펴보자. 우리는 k=4 로 설정하여 K-평균 군집분석 알고리즘을 실시하여 마네가 슈팅을 시도하는 지점을 4가지 그룹으로 묶었다. 여기서 우리는 각 군집이 다른 색깔로 표현되어 있는걸 확인할 수 있다. 또한 각 군집의 중심점에는 'X' 표시가 되어있다. 이후 4개의 중심점을 선으로 연결했다.




  

왜 k=4 인가?


물론 K-평균 군집 분석에 앞서 k값을 설정해주는 것은 다소 임의적인 부분이지만, 여기에는 충분한 이유가 있다. 첫째 각 중심점을 이어 도형을 만들기 위해서는 적어도 3개 이상의 중심점이 필요했다. 하지만 삼각형 모양이 만들어졌을 때, 이것이 화살표로 보일 가능성이 있기에 적어도 4개의 군집이 필요하다고 생각했다. 아래 그림은 2016/2017시즌 마네의 슈팅 위치 데이터를 군집분석할 때, k값을 1부터 9까지 변형했을 때 중심점이 잡히는 결과를 보여준다.




 



바로 위에 있는 그래프는 "scree plot" 이라 불린다. 이 "scree plot"에서 그래프가 급격하게 감소하거나 꺾이는 부분은 K-평균 군집분석에서 최적의 k값을 결정하는데 큰 도움을 준다.


이 그래프에서는 k값을 4,5 또는 6으로 결정하는 것이 좋다. k값이 6보다 큰 상황에서는 유의한 차이가 발생하지 않는다. 물론 모든 선수들에 동일하게 적용되는 것은 아니다. 


리버풀 선수들 중 40회 이상 슈팅을 시도한 선수들을 대상으로 K-평균 군집분석 알고리즘을 적용했다. 또한 각 선수들의 슈팅 당 평균적인 기대득점(xG) 값에 비례해 음영처리했다. 슈팅이 위협적인 선수일수록 더 짙은 색을 띄고 있다.





사디오 마네는 기대득점 측면에서 리버풀 선수 최고의 퍼포먼스를 보였다. 아래 그림은 동일한 방법으로 2017/2018시즌 개막 이후 현재까지 리버풀 선수들의 슈팅 데이터를 시각화한 것이다.







출처 : https://chanceanalytics.com/2017/09/28/exploring-the-uses-of-clustering-individual-shot-cluster-zones/