by Will Gurpinar-Morgan



수년간 패스 능력을 측정하기 위한 여러 모델이 개발되었다. 지금부터 소개하고자 하는 모델은 다양한 변수들 (패스의 시발점, 종료지점, 패스 길이, 각도, 머리로 하는 패스, 발로 하는 패스) 등의 여러 요인을 고려해 패스의 성공확률을 계산하는 모델이다.


지금까지 대다수 통계적 모델은 선수 개인의 패스 능력 관점에서 결론을 도출했다. 하지만 팀수준에서 인사이트를 얻기 위해 통계적 모델을 적용해보고자 한다. 패스는 공격을 풀어가는 가장 핵심적인 수단이다. 따라서 수비가 어떻게 패스를 방해하는지 파악하는 것은 분명 도움이 될 것이다.


아래의 차트는 패스 연결 난이도를 고려해 예상(예측)되는 패스 결과와 실제 패스 결과를 팀 전체 수준에서 비교해서 보여준다. 따라서 이 통계는 상대팀의 패스 연결을 어느 정도 수준으로 방해하는가를 측정할 수 있는 도구가 될 것이다. 데이터는 2016/2017시즌 데이터를 기반으로 만들었다. 





방해 지수(Disruption)에 대해 이야기 하자면 다음과 같다. 방해 지수는 실제 패스 성공률에서 통계적 모델로 예측한 패스 성공률을 뺀 값이다. 따라서 음의 값일수록 상대팀이 (통계적으로) 기대되는 수준보다 더 적은 패스를 허용했다는 의미다.


다음 단계는 피치 구역별로 살펴보는 과정이다. 피치를 5구역으로 나누어 각 지역 마다의 방해 지수를 색깔로 표시했다. 빨간색일수록 상대의 패스를 더 잘 방해했고 파란색일수록 그렇지 못했다는 것을 의미한다.





맨체스터 시티와 스퍼스는 피치 전 지역에 걸쳐서 상대의 패스를 방해했다. 두 구단의 차이라면 스퍼스의 패스 방해수준이 피치 높은 지역으로 쏠려있다는 것이다. 리버풀은 미드필드 지역에서 상대의 패스를 잘 제어하지만, 가장 깊은 수비라인에서는 그러지 못했다. 즉, 중원에서 리버풀의 압박을 통과하면, 골을 넣기 위한 공간과 시간적 여유를 가질 수 있다는걸 의미하는 것이다. 이는 리버풀의 수비 문제를 지적할 때 자주 언급되는 사항이다.


첼시의 결과는 대조적이다. 첼시는 골문과 가까운 지점에서 상대의 패스 연결을 가장 잘 방해한다. 첼시는 (상대의 패스를 차단하는데 있어) 가장 중요한 구역인 후방에서 상대의 패스 성공률을 통계적 예측값보다 2.8% 떨어뜨린다.


첼시와 정반대 모습을 보여주는 구단은 본머스다. 본머스는 최후방 지역에서(deepest-defensive zone) 통계적 예측값보다 무려 4.5% 높은 패스 성공률을 허용한다. 선덜랜드의 경우는 최후방을 제외한 나머지 4개 구역에서 상대에게 높은 패스 성공률을 허용했다.


이렇게 팀 수준의 수비 과정과 결과에 대해서 간단히 살펴보았다. 상대의 약점을 파악하고 우리팀의 퍼포먼스 향상을 위해 충분히 활용될 수 있는 자료이다. 




이번 포스팅을 위해 나는 2가지 패스 측정 모델을 개발했다. 첫번째는 로지스틱 회귀를 활용한 모델이고 2번째는 랜덤 포레스트 방식을 사용했다. 각 모델의 코딩은 여기를 참고하면 된다 : 로지스틱 회귀 / 랜덤 포레스트


아래는 2가지 모델에 대한 비교를 시각화한 것이다. (2가지 모델을 표본 외 테스트 데이터에 적용해) 통계적으로 예측한 패스 성공률과 실제 패스 성공률을 비교한 결과다. 




랜덤 포레스트 모델이 로지스틱 회귀 모델보다 퍼포먼스가 더 좋았고 특히 확률이 낮은 패스와 관련해 예측이 더 좋았다. 아래는 ROC 커브를 사용해 2가지 모델을 비교한 결과이고 ROC 커브 밑 영역 AUC 값이 랜덤 포레스트는 0.87 이고 로지스틱 회귀는 0.81이었다. 랜덤 포레스트 방식의 퍼포먼스가 더 좋았기에 위에서는 랜덤 포레스트 방식을 활용한 예측값을 활용했다.






출처 : https://statsbomb.com/2017/09/under-pressure/