득점의 임의성을 활용한 시즌 전체 득점 예측

Soccermatics 2016. 6. 22. 15:05 Posted by Seolskjaer

잉글랜드의 폴 개스코인은 이렇게 말했던 적이 있다 : "나는 그 어떤 것도 예측하지 않고 앞으로도 그럴 것이다.(I never predict anything and I never will)" 그러나 나는 개스코인의 이 8개의 글자만으로 우리가 왜 예측이란 것을 피할 수 없는지에 대해서 말할 수 있다. 개스코인은 단 4글자만에 오류를 범했다. 비록 가짜(Gazza)이 오류가 있는 말을 했을지라도 그는 우리에게 심오한 질문을 던졌다는 의미를 둘 수 있다 : 모든 것에서 우리는 패턴을 발견할 수 있다.

아침 출근길 러시아워를 지나 직장에 도착하는데까지도 패턴이 존재하고 우리의 친구 관계에도 패턴이 존재한다. 우리의 저녁 식사에도 또 그 식사를 위한 장보기에도 패턴이 존재한다. 따라서 자연스럽게 축구에도 패턴이 존재하게 된다. 우리의 과제는 패턴을 파악하고 그것에 대한 충분한 이해를 하는 것이다. 만약 우리가 아주 정확한 패턴을 발견해낸다면, 우리는 그것을 통해 예측을 시작할 수 있게 된다.

프리미어 리그 2012/2013시즌은 흥미롭고 예측 불가능한 경기들의 연속이었다. 리버풀은 2차례 연속으로 5-0 승리를 기록했고 그 다음에는 6-0 승리까지 기록했으나 유럽 대항전 진출에 실패했다. 시즌은 경기 막바지 예측 불가능한 상황을 가장 잘 만들어내는 알렉스 퍼거슨 경이 이끄는 팀의 우승으로 마무리 되었는데 맨체스터 유나이티드 감독으로서 퍼거슨 경이 지도한 마지막 경기 역시 예측 불가능에서 벗어나지 않았다. 웨스트 브롬위치 알비언은 맨체스터 유나이티드를 상대로 마지막 10분간 3골을 기록했고 퍼거슨 경은 다시 한 번 'Football, Bloody hell !'을 외칠 수 밖에 없었다.

사람들 머릿 속에 강력하게 기억될 멋진 경기들도 있었지만 이미 사람들에게 잊혀져버린, 그저 그랬던 0:0 무승부 경기도 비슷하게 양산되었다. 팬들은 그런 0:0 경기를 잊었을지 모르지만 기록은 결코 그러지 않는다. 우리는 경기 결과 속에 숨어있는 패턴을 파악하기 위해서 우리의 머릿속에서 잊혀진 경기들을 다시금 꺼내야만 한다. 아래 그림은 2012/2013시즌 경기당 득점 수에 대한 히스토그램이다. 경기당 평균 득점은 2.79골로 3골에 못미치는 수준이었다.

히스토그램은 다양한 득점수가 어느 정도의 빈도를 가지는지 보여준다. 첫번째 바인 0:0 무승부는 총 35차례 발생했다. 퍼거슨 경의 마지막 경기였던 5:5 무승부는 총 10골이 나온 2경기 중 하나였다. 히스토그램의 중앙에서 우리는 총 3골이 나오는 경기가 가장 빈번하게 발생함을 알 수 있다. 3골이 나온 경기 중에서도 2:1 승부가 가장 많았다. 패턴은 우리가 그림을 통해 보는 바와 같다. 그렇다면 이제 우리는 이 패턴이 어디서 발생했는가에 대해서 이해해야 한다. 그러기 위해서 우리는 수학적 모델을 도입할 수 밖에 없다.

축구 경기 결과는 랜덤하다. 축구와 다른 스포츠가 사람들의 흥미를 이끄는 것은 승부를 예측할 수 없음에 기인한다. 경기를 보고 있지만 잠시라도 한 눈을 팔게 되면 그 순간 중요한 빌드업 과정이나 급작스레 터진 골을 놓치게 된다. 골은 경기의 어느 순간에라도 나올 수 있는 이벤트이다. 하나의 시뮬레이션을 해보자. 축구를 정확히 90분짜리 경기라 생각하고 각 1분마다 득점이 나올 수 있는 확률은 동등하다고 하자. 앞서 경기당 평균 2.79골이 나온다고 이야기했다. 따라서 우리는 1분에서 32분 사이에 1골을 볼 수 있게 된다.

컴퓨터로 시뮬레이션을 돌려보는데 1분동안 득점할 수 있는 확률을 0.031로 둔다. (2.79골/90분) 이 시뮬레이션을 많이 정말로 수없이 많이 돌려보면 우리는 시즌의 전체 득점 패턴이 어떻게 형성되는지 파악할 수 있다. 시뮬레이션을 통해 얻은 결과는 아래 그래프에서 실선 부분과 같다. 우리는 이를 통해서 시뮬레이션을 통한 예측과 실제가 어느 정도 겹친다는 것을 확인하게 된다.

시뮬레이션과 실제가 연관성을 가진다는 것은 시뮬레이션이 굉장히 성공적이라는 것을 의미한다. 감독이 터치 라인에서 선수들을 향해 소리지르는 것, 팬들이 선수들을 향해 쓸모없다고 조롱하는 것, 선수 스스로 지금이 득점 찬스라고 생각하는 것들은 우리가 추정한 모델에 영향을 주지 않는 요소다. 그런 사항들은 득점의 분포에 대해 영향을 행사하지 못한다. 오히려 이 모든 것들이 추정한 모델 내에서의 함께 어우러져 무작위성이 발생하도록 영향을 준다고 할 수 있다.

그래프에서 실선에 해당하는 부분, 즉 시뮬레이션으로 추정한 부분은 포아송 분포(Poisson distribution)로 알려져있다. 포아송 분포의 성질 중 하나는 과거의 발생한 사건이 미래에 발생할 사건에 영향을 주지 않는다는 것이다. 포아송 분포의 이 성질은 내가 이 분포를 사용한 이유이며 축구 경기에서도 이와 같은 특징은 적용될 수 있다 : 지금까지 몇골이 나왔는가, 어느 시간에 골이 나왔는가는 앞으로 발생하는 득점에 영향을 미치지 못한다. 포아송 분포를 활용한 시뮬레이션과 실제 결과는 꽤나 일치하는 모습을 보여준다. 득점은 무작위성을 가지지만 우리는 그 속에서 특정한 패턴을 또 발견해낼 수 있다.

랜덤 시뮬레이션과 포아송 분포는 어느 곳에서나 발견할 수 있는 사항이다. 대학교 통계학 수업에서는 버스 정류장에서 버스를 기다리는 것이 포아송 분포를 따른다고 배운다. 실제로 버스 회사는 정시에 버스를 출발시키지만 노인을 태우는 과정에서 시간이 더 소모되고 도로 위를 달리는 자전거 등으로 인해 현실에서는 변화가 발생한다. 또 다른 일상생활 예시로는 1년마다 갈아끼우는 전구의 개수를 언급할 수 있다. 전구를 갈아끼우는 매 순간마다 아주 작게나마 고장의 확률을 동반하게 된다. 우리는 그 곳에서도 포아송 분포를 발견할 수 있다.

포아송 분포란 이름은 19세기 초 프랑스의 시몽 데니스 포아송의 이름을 따서 만들어졌다. 그러나 포아송은 그 분포에 대한 수학적 요소에만 관심이 있었을 뿐 실제 삶에 어떻게 활용되는지에 대해서는 크게 관심을 두지 않았다. 포아송 분포를 실제 삶에 반영한 인물은 1898년 독일에서 일하고 있었던 라디슬라우스 보르트키예비치였다. 보르트키예비치가 조사하고 있던 자료 중 하나는 우연히 기병대의 말의 발길질에 맞아 사망하는 군인의 숫자였다. 그는 20년간 14개 연대의 사망자 수를 조사했고 말의 발길질에 맞아 죽은 사람들이 얼마나 되는지 플로팅을 하기 시작했다. 여기서 그는 이 자료가 포아송 분포와 굉장히 일치하는 모습을 보인다는걸 발견했다. 말의 발길질에 걷어차여 사망하는 것은 흔하게 발생하는 사건이 아니다. 20년간 14개 연대에서 사망한 병사의 수는 144명이었는데 불행하게도 1년에 4명이 사망한 연대가 2곳이 있었다. 그러나 포아송 분포를 적합시킨 결과 보르트키예비치는 이 2곳 연대가 특별히 더 말을 다루는데 있어서 조심할 필요가 없다는 결론을 내렸다. 그냥 그 해에 운이 없었던 것일 뿐이다. 축구가 사람의 목숨만큼 중요할 수도 있고 중요하지 않을 수도 있다. 어쨌든 축구도 같은 규칙을 따르게 된다.

포아송 분포는 수학적 유추의 첫번째 단계이다. 굉장히 다양한 분야에서 포아송 분포를 따르고 있고 축구 역시 그 중 하나일 뿐이다. 사건이 갑자기 발생하고 동시에 각 사건이 독립적이며 이전 사건들이 앞으로 일어날 사건에 영향을 미치지 않는다면 우리는 합리적으로 그 사건이 포아송 분포 형태와 유사할 것이라 가정할 수 있다. 통계학자들은 자동차 추돌사고, 비행기 엔진의 고장, 은행의 파산, 자살과 살인, 건축 현장에서의 산업재해 모두 포아송 분포의 형태를 보인다는 것을 발견해냈다.

우리는 축구에서 1분 뒤에 어떤 상황이 펼쳐질지 예측하지 못한다. 평균적으로 경기당 몇골이 나오는지는 알 수 있지만 그 골이 나오는 시점은 예측하기가 어렵다. 그러나 우리는 최종적인 결과로 특정 스코어가 다른 스코어보다 많이 발생하는 것을 확인할 수 있다. 우리는 바로 이 임의성 속에서 역설을 발견하게 된다. 득점은 임의의 시간에 나오지만 그것이 모여 하나의 패턴을 형성하게 되고 결국 우리는 최종적인 결과를 예측할 수 있게 된다. 굉장히 임의로 발생하는 사건들이 사건의 발생을 설명할 수 있게 만들고 빈도에 대해 예측할 수 있게 만든다.

무작위성은 미래를 예측하는 도구로 활용되고 수학자들 역시 항상 이런 방법을 활용한다. 새로운 시즌이 개막하고 월드컵이 시작하고 오스카 시상식을 앞둔 순간마다 언론사들은 어떤 팀이 우승할지, 어떤 영화가 수상을 할지에 대한 확률을 예측한다. 언론사가 제시하는 확률은 때로는 굉장히 합리적으로 보이고 정말 딱 알맞을 때도 있다. 그렇다면 그들의 예측은 어디서 비롯되는 것일까? 그들 역시 포아송 분포를 활용한다. 축구 경기 결과를 모델링하는 것은 각 팀의 득점 기록과 실점 기록을 토대로 시뮬레이션을 돌리는 것에서 시작된다.

예를 들어보자면, 2012/2013시즌 아스날은 평균적으로 홈경기에서 2.47골을 넣었고 원정에서는 1.32골을 기록했다. 한편 홈에서는 평균 1.21골을 내주었고 원정에서는 0.74골을 내주었다. 모든 팀을 대상으로 이와 동일한 데이터를 구하고 각각의 경기 조합에 맞춰 시뮬레이션한다. 그렇게 우리는 다가오는 시즌에 대한 예측을 하게 된다. 아래는 2012/2013시즌 데이터를 바탕으로 2013/2014시즌을 예측한 것이다.

팀	P	W	D	L	F	A	Pts
맨시티	38	22	7	9	71	42	73
리버풀	38	22	5	11	64	43	71
첼시	38	21	5	12	74	51	68
맨유	38	19	7	12	61	45	64

이 예측은 실제 데이터와 크게 다르지 않았다. 실제로 맨체스터 시티는 리버풀에게 2점차로 앞서 리그 챔피언이 되었고 첼시는 정말로 3위에 랭크되었다. 그러나 이것은 컴퓨터에서 돌린 1차례의 시뮬레이션에 불과하다. 컴퓨터에서 '실행'을 누를 때마다 결과가 달라진다. 아래는 또 다른 시뮬레이션 결과이다.

팀	P	W	D	L	F	A	Pts
리버풀	38	23	7	8	68	37	76
첼시	38	22	8	8	75	52	74
맨유	38	22	5	11	72	43	71
맨시티	38	19	8	11	64	42	65

만약 스티븐 제라드가 첼시와의 경기에서 미끄러지지 않았다면 바로 위에 있는 결과를 마주했을지도 모른다. 리버풀이 25년만에 리그 타이틀을 차지하는 결과 말이다. 리버풀의 우승을 바탕으로 스티븐 제라드가 잉글랜드 월드컵 팀에 더 긍정적인 기운을 불어넣었을지도 모른다. 시뮬레이션으로는 이것과는 또 다른 굉장히 다양한 결과를 얻을 수 있다.

그렇지만 객관적인 과학자 입장에서 시뮬레이션은 여러차례 시도해야하고 그 모든 결과를 종합한 결론을 내려야만 한다. 나는 이 시뮬레이션을 10,000회 돌렸고 여기서 얻은 결론이 가장 합리적인 답을 내놓을 것이다. 여기서 리버풀의 우승 확률은 11.5%에 불과했다. 한편 2012/2013시즌 우승을 차지한 맨체스터 유나이티드의 우승 확률은 26.2%였고 첼시가 19.2% 아스날이 17.6% 맨체스터 시티는 12.8% 토트넘 핫스퍼는 6.0%의 확률을 기록했다.

그러나 우리는 이미 결과를 다 알고 있고 이 예측이 진실에서 벗어났다는 것을 알고 있다. 맨체스터 유나이티드는 감독을 교체했고 최악의 시즌을 맞이했다. 맨체스터 시티와 리버풀이 리그를 지배했고 두 팀 모두 100득점을 넘었다. 아주 정확한 예측 모형을 만들었다고는 할 수 없다. 그러나 가장 중요한 사실은 매우 정확할 수는 없어도 크게 틀리지 않는 모형을 발견했다는 것이다. 리그에서 우승권에 근접할 것이라 예측되는 팀들은 대체적으로 경기를 잘 치렀고 리그 상위권을 차지한 팀은 예측한 바에서 크게 어긋나지 않았다. 무엇보다도 우리는 어떠한 개인적 판단없이 수학적인 접근만으로 예측을 시도했다. 득점이 무작위하게 발생한다는 것, 각 팀의 득점률만을 활용해 우리는 어느 정도까지는 비슷하게 리그 순위를 예측할 수 있었다. 폴 개스코인이 축구는 예측 불가능하다 말했지만 우리가 맞이한 결과는 그것과는 정반대이다. 매 주말마다 400명 가량의 선수들이 공을 차면서 90분 경기를 소화한다. 그리고 최종적으로 런던의 빅클럽이나 맨체스터의 빅클럽이 트로피를 차지한다. 축구는 예측 가능하다.

무작위성을 바탕으로 예측이 이루어지는 것은 실제 우리의 삶에서도 수학적인 접근이 큰 역할을 하고 있음에 기인한다. 우리가 서비스 센터에 전화를 걸었을 때, 상담원은 대략적으로 어느 정도의 대기 시간이 필요한가에 대해 즉각적으로 알려준다. 은행에서 대출 받을 때도 이미 은행에서는 파산 가능성에 대한 계산을 다 끝내놓은 상황이다.

대기 시간이 얼마나 필요한지, 회사의 파산여부 같이 어떤 클럽이 리그에서 우승할 것인가는 정확하게 예측할 수 없다. 우리의 예측은 과거의 사건을 종합해 미래에 발생할 확률을 계산하는 것에 불과하다. 그리고 그 수학적 계산법은 독일 군인들이 말의 발길질에 차여 사망하는 것을 예측하는 모델에서 만들어졌다. 수학을 통해서우리는 버스의 도착, 축구 경기, 파산, 암발생률, 전화 대기 시간이 공통점을 가진다는 것을 확인할 수 있었다. 그 결과 우리는 사건이 어느 빈도로 발생하는가에 대해 예측을 할 수 있게 된다.

득점은 무작위로 발생하지만 수학은 최종적으로 예측이 가능하게 만든다. 그러나 무작위성으로 모든 현상을 다 설명하지는 못한다. 2013년 알렉스 퍼거슨 경의 은퇴 이후 데이빗 모예스는 20여년만에 맨체스터 유나이티드를 최악의 성적으로 몰아넣었다. 우리는 이 현상을 설명하는데 있어서 불운을 빼놓을 수가 없을 것이다. 브라질은 2014년 자국 월드컵에서 18분 사이에 독일에게 5골을 내주었다. 브라질이 단숨에 5골을 내준 요소로 압박감 속에 브라질이 무너진 것, 독일이 분위기를 탄 것을 무시할 수 없다. 득점의 무작위성 말고도 다른 것이 분명히 작용한다.

무작위성만으로 퍼거슨의 성공 스토리와 독일 축구의 강력함을 온전히 설명할 수 없다. 그 둘의 성공을 파악하기 위해서 우리는 내부적으로 어떠한 노력을이 이루어지는지 파악해야만 한다. 그런 노력들은 무작위성을 가지지 않고 따라서 지금까지 우리가 논의한 방법으로는 이해할 수 없는 사항들이다.

생태학을 전공하는 학자는 나에게 이런 말을 해주었다. "주변에 포식자가 없다면, 물고기들은 굉장히 무분별하게 퍼져있다. 그러나 포식자를 발견한 순간 그 물고기들은 모여 굉장히 조밀한 물레방아 형태의 포진을 형성한다." 특정한 한 마리의 물고기가 그 물레방아를 형성하기 시작하는가? 그 물레방아 형태가 회전하는 속도는 얼마나 빠른가? 각 물고기마다 선호하는 위치가 있을까? 과연 물레방아 형태가 포식자에게서 피할 수 있는 가장 최적의 포메이션인가? 등은 실질적인 수수께끼가 될 수 있겠다. 무작위성을 활용하는 모델이 실패하는 순간 이러한 질문들은 굉장한 흥미를 불러일으키게 된다.

선수들의 움직임은 동시다발적으로 이루어지며 패스 네트워크 역시 하나의 구조를 형성한다. 공의 움직임은 물리학의 법칙 뿐만 아니라 감독이 전술이라 생각하는 것들을 반영하게 된다. 그런 사항들을 하나하나 캐내기 위한 모델은 지금 우리가 사용한 무작위성과는 다른 이야기일 수 밖에 없다. 그러나 적용하는 수학적 이론이 달라질 뿐이지 결과를 관측하고 가정을 세우고 (또 다른) 수학적 모델을 활용해 시뮬레이션을 하고 그 가정이 맞다는 것을 입증하는 방법은 동일하다.

현상을 가장 잘 설명하는 모델을 발견하는 것은 수학자에게 큰 도전 과제라 할 수 있다. 만약 시즌 전체적으로 어느 정도의 골이 발생하는가에 대해서 궁금하다면 지금까지 논의한 것만으로도 충분하다. 그러나 포메이션, 선수들의 움직임과 기술에 대해서도 이해하고 싶다면 우리는 더 깊은 논의를 진행해야만 한다. 이것이 앞으로 우리에게 주어진 과제다.

출처 : <SOCCERMATICS : Mathematical Adventures in the Beautiful Game, David Sumpter著>

저작자표시

'Soccermatics' 카테고리의 다른 글

축구 : 행운과 기술 그리고 임의성 (0)	2016.10.14
페널티킥을 완벽하게 차기위한 통계 (0)	2016.07.16
스퍼스의 시스템과 루니의 조화가 잉글랜드의 유로2016 성공여부를 결정할 것 (1)	2016.06.08
피치 전반에 걸쳐 영향력을 행사하는 메수트 외질 & 아런 램지 (0)	2016.05.27
수치로 드러나는 리버풀의 팔방미인 필리페 쿠티뉴 (0)	2016.05.27

Football Eh? Bloody Hell !

카테고리

득점의 임의성을 활용한 시즌 전체 득점 예측

'Soccermatics' 카테고리의 다른 글

티스토리툴바