О применимости Эло рейтинга для оценки силы

Загрузка ...

О применимости Эло рейтинга для оценки силы
футбольных команд в закрытом круговом турнире.
Развитие Эло рейтинга – интегральный Эло рейтинг

Любой любитель футбола, всматривающийся в турнирную таблицу, рано или поздно осознает относительность очковой системы распределения мест в ней. Случился подобный казус и со мной.

Вот смотрите. Возьмем чемпионат Англии по футболу (Премьер лигу) Сезон 2007-2008.

Астон Вилла выиграла со счетом 2-0 у Челси (игра состоялась в Бирмингеме 02/09/2008), а затем, опять у себя на поле с таким же счетом 03/11/2008 одержал вверх над Дерби Каунти. В итоговой таблице Челси с 85 очками занял в итоге 2-место в турнирной таблице, а Дерби с 11-ю занял 20-е последнее место и покинул класс сильнейших. За обе победы Астон Вилла вписала в свой актив совершенно равнозначные 3 очка. Справедливо? Очевидно, что не справедливо. Очки-то эти совершенно разные.

Первая мысль была о том, что надо найти подходящий рейтинг и при помощи математики решить очевидную «несправедливость» турнирной таблицы.

Единственным рейтингом, кроме идиотского рейтинга ФИФА, который был бы мне известен на тот период, был шахматный рейтинг Эло. (Словосочетание «был бы мне известен» уместно заменить на "о котором я что-то слышал").

Отступление. Приведем определение рейтинга (Современный Энциклопедический словарь Изд. Большая Российская Энциклопедия, 1997 г.).

Рейтинг - индивидуальный числовой показатель (коэффициент) достижений шахматиста (шашиста), меняющийся в зависимости от его результатов в соревнованиях.

Далее приведу мои собственные измышления, которые оформились примерно спустя 1,5 года первого знакомства с рейтингами Эло. (сразу прошу прощение за косноязычие и неумение ясно излагать свои мысли).

Давайте попробуем дать свои собственные определение рейтинга.

Условимся, что существуют 2 уровня (типа) рейтингов. Построим их определения на базе вышеприведенного энциклопедического.

1.Рейтинг команды текущий (мгновенный)это индивидуальный числовой показатель, который определяет потенциал команды на конкретный момент расчета (на точно определенное время) и позволяет оценивать текущую силу команд (преимущество одной команды над другой).
2.Рейтинг команды интегральный это индивидуальный числовой показатель, который определяет сводный потенциал команды по итогам всего турнира и позволяет оценивать турнирное (итоговое) преимущество одной команды над другой.

Рейтинг типа 1 (текущий) говорит о том, насколько сильна в данный конкретный момент команда.
Рейтинг типа 2 (интегральный) говорит о том, насколько сильна команда в целом в этом турнире.

Отметим, что у победителя турнира на конечном этапе вполне может оказаться не самый высокий текущий рейтинг, но самый высокий интегральный рейтинг быть обязан – турнир в целом победитель прошел лучше всех.

Аналогия с гонщиком.
Скорость гонщика-победителя может быть на каком-то участке трасы и не самой высокой (текущая скорость - это Рейтинг типа 1), но средняя скорость прохождения трассы и затраченное время (Рейтинг типа 2) – обязательно должны быть лучшими.

Для удобства введем некоторые рейтинговые постулаты. Общие особенности определения силы команды в замкнутом турнире (чемпионате). Принципы однозначности рейтинга.
1.Справедливость. Носитель большого значения рейтинга получает от победы над обладателем слабого рейтинга тем меньше, чем сильнее отличаются рейтинги. И наоборот. При ничейном результате больше получит слабейший, а сильный рейтинг получит меньше.
2.Нельзя определить, насколько сильна команда, которая не потеряла ни одного очка. (Не с чем сравнивать эту команду). Формально такая команда имеет неопределенный (бесконечно большой) рейтинг.
3.Чем меньше количество игр в турнире сыграно, тем менее точны любые расчеты по определению рейтинга. И наоборот.
4.Рейтинги команд из различных круговых турниров, даже те, которые рассчитаны одинаковым способом, не сопоставимы. (Нельзя просто так сравнивать команды английской и китайской лиг по рассчитанным однотипным рейтингам).
5.Для расчета рейтинга не важно, в какой последовательности встречаются команд.
6.Нельзя определить, насколько слаба команда, которая не получила ни одного очка в турнире. (Не с чем сравнивать эту команду). Формально такая команда имеет неопределенный (бесконечно малый или, возможно, нулевой) рейтинг.
7.Встречи команд в круговом турнире с командой, которая не получила ни одного очка не влияют на расчет рейтинга команд.

По моему мнению, способы расчета рейтинга, для которых выполняются постулаты, являются действительно рейтингами.
Теперь перейдем к Эло рейтингу.

Дальше цитирую по Википедии

Система рейтингов ЭЛО - метод расчёта относительной силы игроков в играх, в которых участвуют двое (например, го или шахматы). Эту систему рейтингов разработал американский (венгерского происхождения) профессор физики Арпад Эло (венг. Árpád Élő; 1903-1992).

Рейтинг Эло также иногда называют коэффициентом Эло.
Принципы системы рейтингов Эло могут быть применены также и в других видах спорта, например, в футболе.
История создания системы.
Арпад Эло был квалифицированным, на уровне мастера, шахматистом и активно работал в Шахматной Федерации США (United States Chess Federation, USCF), со времени её основания в 1939 году. Шахматная Федерация США применяла цифровую систему, для обсчёта рейтингов, которые позволяли следить за прогрессом шахматистов. Но эта система была несовершенной и иногда приводила к необоснованному росту рейтингов. По поручению Шахматной Федерации США, профессор Эло разработал новую систему на статистической основе.
Система рейтингов Эло была предложена шахматной федерацией США в 1960 году и была принята ФИДЕ в 1970 году.

Рейтинг Эло для шахматистов.
Под рейтингами Эло обычно подразумевают рейтинги ФИДЕ, однако существуют и другие рейтинги: рейтинг шахматной федерации США, рейтинг Интернет шахматного клуба (Internet Chess Club), рейтинг Ассоциации Шахматных Профессионалов (АШП). Каждая система рейтингов имеет свои особенности и не следует в точности первоначальным предположениям Эло.
В шахматах рейтинг Эло вычисляется по результатам игр шахматистов друг с другом. Система рейтингов Эло делит шахматистов на девять классов: высший класс начинается с рейтинга 2600, низший класс соответствует рейтингу 1200 и ниже.

Примерное соответствие рейтингов Эло и шахматных званий и разрядов:
более 2700 - (международный) гроссмейстер, претендующий на звание чемпиона мира по шахматам;
2500-2699 - гроссмейстер;
2400-2499 - международный мастер;
2200-2399 - национальный мастер;
2000-2199 - кандидат в мастера;
1800-1999 - первый разряд;
1600-1799 - второй разряд;
1400-1599 - третий разряд;
1200-1399 - средний любитель (четвертый разряд);
1000-1199 - слабый любитель (пятый разряд);
менее 1000 - новичок.

В системе рейтингов Эло принято, что переход от одного класса игры к следующему происходит примерно через 200 пунктов рейтинга. Если различие между двумя игроками составляет 200 пунктов, то сильнейший игрок выигрывает с вероятностью 76 %, если различие составляет 400 пунктов, то вероятность будет равна 91 %. Различие в 600 пунктов означает, что сильнейший игрок выигрывает практически всегда (97 %). Если рейтинги обоих игроков равны, вероятность победы одного из них равна 50 %. Эти вероятности, конечно, не учитывают спортивную форму игрока в конкретный момент. На уровне низшего класса рейтинг Эло чаще даёт неверные предсказания результата, так как игроки этого класса чаще делают непредсказуемые ошибки.

Чем реже проигрывает шахматист, тем точнее можно оценить его рейтинг. Наиболее точно рейтинг можно получить на основе турниров, в которых играют примерно равные по силам игроки. В основе системы рейтингов Эло лежит допущение, что сила каждого шахматиста может быть представлена как вероятностная переменная, подчиняющаяся нормальному распределению. Расчёт рейтинга конкретного игрока по результатам какого-либо турнира основан на сравнении количества набранных им очков с ожидаемым, предсказанным на основе его рейтинга, количеством очков. Если по итогам турнира количество набранных очков оказывается больше, чем предсказанное значение, то рейтинг данного игрока возрастает. Если по итогам турнира количество набранных очков оказывается меньше, чем предсказанное значение, то рейтинг данного игрока уменьшается.

Шахматист, добившийся высокого рейтинга Эло (например, в Интернете), не может претендовать на соответствующее шахматное звание или разряд, поскольку эти разряды и звания присуждаются после выполнения определённых норм (участие в определённых турнирах и др.). Звания Гроссмейстер (международный гроссмейстер) и Международный мастер присуждаются Международной Шахматной Федерацией (ФИДЕ).

Вычисление рейтинга Эло.

Вычисляется вероятность выигрыша игрока A против игрока B. Эта вероятность одновременно равна наиболее вероятному количеству очков, которое наберёт игрок A в партии с B:

EA=1/(1+10**(RB-RA)/400)
где:
** - знак возведения в степень
EA - ожидаемое количество очков, которое наберёт игрок A в партии с B;
RA - рейтинг игрока A;
RB - рейтинг игрока B.
Вероятность победы игрока A в процентах будет равна EA * 100%.
Новый рейтинг игрока A рассчитывается по формуле:
RA новый =RA+K(SA-EA)
где:
K - коэффициент, значение которого равно 10 для сильнейших игроков (рейтинг 2400 и выше), 15 - для игроков с рейтингом меньше чем 2400 и 25 - для новых игроков;
SA - фактически набранное игроком A количество очков (1 очко за победу, 0,5 - за ничью и 0 - за поражение);
RA новый - новый рейтинг игрока A.
Аналогично вычисляется и рейтинг RB новый игрока. B

После моего знакомства с выкладками по расчету рейтинга Эло для шахматистов я загорелся применить его к чисто футбольным проблемам.
26.11.2008
  Собственно формулы, приведенные выше и используемые для расчета рейтинга Эло, ничего сложного из себя не представляют. Начался рутинный этап расчета. Вначале - счет шел вручную, чуть позже - с привлечением интеллекта и ПК. Немного напрягали не описанные критерии выбора коэффициента К (от 10 до 25) и начального рейтинга (1000-2200). Как выяснилось немного позже - выбор этот не имеет (ну практически не имеет) никакого значения.

Давайте рассмотрим гипотетическое изменение рейтинга Эло у произвольного шахматиста.

Родился человек, подрос, начал учится играть в шахматы и, со временем, получил свой первый разряд и рейтинг. Предположим - 1000 (новичок). Дальше человечек растет, понемногу совершенствуется, развивается, тренируется, встречается с более маститыми соперниками, побеждает их - и рейтинг его тоже растет. Ну, могут иногда выходить проколы. Лень почитать современную литературу по шахматам, или жена просит новую шубу – негативное влияние. Т.е. возможны легкие флуктуации уровня рейтинга. В том числе и в сторону уменьшения. Но функция, описывающая изменения этого рейтинга, не должна терпеть разрыва. Разве что у человека случится инсульт и это отразится на его умственных способностях (извините за столь жесткий пример).

Совсем иное дело в футболе. Ожидать стабильности от футбольного клуба не приходится. Что ни сезон, то все может быть. Как, например, у Реала, Барселоны или Милана в недавнем прошлом. Кто-то в команде травмируется, меняется тренер, финансовые трудности, кто-то из ключевых игроков не вовремя заболеет или потеряет форму, у кого-то – лишний вес, тренер решит новую тактику наигрывать. В конце концов, во время подготовительного сезона в Турции дожди зарядят и т.п. Да мало ли что может произойти с футбольной командой, согласитесь

Ну и действительно, ведь футбольная команда - это довольно сложный организм, от которого "плавность" изменения его рейтинга ожидать не приходится. Короче. Похоже, что на начало нового сезона старое значение рейтинга после предыдущего сезона может претерпеть существенное изменение. Более того, даже во внутри сезонную зимнюю паузу на Украине мы можем наблюдать значительное колебание в силе команды. Осенью – одно, а весной – как бабка пошептала.

В описанной ситуации я принял "волевое" решение при расчете рейтингов всегда начинать с нового значения для всех команд. Например, будем начинать счет с рейтинга 1000 у всех команд на дату начала турнира. Считаю свое решение не бесспорным, но в целом логичным. Тем более, что намериваюсь применять эту методику не к парной встрече двух команд, а к относительно длительному сезонному турниру. Погрешность ожидаема, но мы ее преодолеем. В конце концов, так мне легче считать программно.

Где будет видна ошибка, связанная со сделанным допущением?

1. Все команды будут стартовать с одного уровня (вынужденная уравниловка).
2. Рейтинг сильных команд будет приуменьшен, а для слабых команд– незаслуженно преувеличен.
3. Сильная команда, обыгрывая заведомо слабого соперника, получит на начальном этапе больший прирост рейтинга, чем того заслуживает.

Теперь о некоторых особенностях Эло-рейтинга:
1. Принцип справедливости выполняется.
2. Сумма рейтингов всех участников турнира не меняется по ходу его проведения. Таким образом замкнутый турнир имеет фиксированную неизменяемую характеристическую величину. Например в системе из 18 команд при начальном рейтинге 1000 он составит 1000*18=18000. Что в 1-м туре, что в 3-м, что в последнем.
3. Разница мячей для расчета рейтинга не важна, важен только исход встречи.
4. Место встречи (домашний стадион или гостевой) для расчета рейтинга команд не имеет значения.
5. Рейтинг характеризует не совокупную, турнирную силу команды, а только текущую силу этой команды на момент вычисления этого рейтинга. Т.е. рейтинг Эло относится к типу рейтинга № 1 (Признаюсь, что я сразу не обратил внимание на это свойство, потратил больше года времени).
6. Для Эло рейтинга постулат № 2 не выполняется.
7. Для Эло рейтинга постулат № 5 не выполняется.
8. Для Эло рейтинга постулат № 6 не выполняется.

Напрашивается вывод. Рейтинг Эло не попадает под строгое опредеоление рейтинга. Он не аналитичен и, возможно, не однозначен. Выходит - Эло коэффициент не рейтинг. Хотя он, в общем, все же может служить для предсказывания и оценки. По крайней мере почти не смотря на все нарекания он долго и широко исчпользовался в среде шахматистов.
01.12.2008

А тепер - к практическому расчету Эло коэффициента


Возьмем уже знакомую английскую Премьер лига. Сезон 2007-2008.
Установим для всех команд начальный рейтинг 1000, а коэффициент К=25. Посчитаем.
Результаты расчета представлены ниже в таблице.
Условимся, что все таблиы будут сортироватся в поряде убывания следующих факторов
1. Число очков.
2. Число побед.
3. Разница.
Остальные факторы для простоты игнорируются.

Команда Игр В Н Пр. Заб. Пр. +/- Очки ЕЛО-Рейтинг
1 Юнайтед (Манчестер) 38 27 6 5 80 22 58 87 1154,56
2 Челси (Лондон) 38 25 10 3 65 26 39 85 1165,90
3 Арсенал (Лондон) 38 24 11 3 74 31 43 83 1134,79
4 Ливерпуль (Ливерпуль) 38 21 13 4 67 28 39 76 1128,83
5 Эвертон (Ливерпуль) 38 19 8 11 55 33 22 65 1054,18
6 Астон Вилла (Бирмингем) 38 16 12 10 71 51 20 60 1024,95
7 Блекберн Роверз (Блэкберн) 38 15 13 10 50 48 2 58 1022,33
8 Портсмут (Портсмут) 38 16 9 13 48 40 8 57 995,90
9 Сити (Манчестер) 38 15 10 13 45 53 -8 55 982,72
10 Вест Хэм Юнайтед (Вест Хэм) 38 13 10 15 42 50 -8 49 972,43
11 Тоттенхем Хотспур (Лондон) 38 11 13 14 66 61 5 46 992,03
12 Ньюкасл Юнайтед (Ньюкастл) 38 11 10 17 45 65 -20 43 960,98
13 Миддлсбро (Мидлсборо) 38 10 12 16 43 53 -10 42 972,34
14 Уиган Атлетик (Уиган) 38 10 10 18 34 51 -17 40 967,11
15 Сандерленд (Сандерленд) 38 11 6 21 36 59 -23 39 935,41
16 Болтон Уондерерс (Болтон) 38 9 10 19 36 54 -18 37 949,91
17 Реадинг 38 10 6 22 41 66 -25 36 913,60
18 Фулхем (Лондон) 38 8 12 18 38 60 -22 36 949,81
19 Бирмингем Сити (Бирмингем) 38 8 11 19 46 62 -16 35 932,71
20 Дерби Каунти (Дерби) 38 1 8 29 20 89 -69 11 789,51


Согласно нашим расчетам на конец чемпионата Челси имел лучший чем МЮ рейтинг, Фулхем был сильнее Реадинга, Болтон сильнее Сандерленда а Тоттенхем сильнее и Вест Хема и МС.

Как мы теперь понимаем, что это (скорее всего) справедливо на дату окончания чемпионата (на 11.05.2008), но совершенно не дает ответа на вопрос, кто же был сильнее в турнире в целом.
Вот очки (очковая система) дают ответ, а рейтинг говорит только о силе команд в этот конкретный день, на который был расчитан рейтинг.
Теперь следует перейти от рейтинга типа 1 мгновенного (зафиксированного на определенный день) значения рейтинга к значению обобщенному, турнирному, интегральному рейтинга типа 2.
Для простоты последующих рассуждений следует взглянуть на график изменения рейтинга для 3-х ведущих команд в течении чемпионата.



Арсенал лучше всех провел чемпионат вплоть до 26 тура. Но далее в игре команды Венгера произошел крутой спад (с 27 по 34 тур). В этот период Арсенал одержал только одну побуду (в 32 туре над Болтоном), 2 раза проиграл (своим прямым конкурентам, Челси в 32 туре и МЮ в 34 туре) и 5 раз сыграл в ничью.

Челси имел провал на старте сезона, с 5-го по 8-й тур (проигрыш Астон Вилле, ничья с Блекберн Роверс, проигрыш прямому конкуренту МЮ и ничья в дерби с Фулхемом. В дальнейшем продвижении Челси было мало остановок. Потеря в 13-м туре (ничья с Эвертоном), в 17-м проигрыш Арсеналу, в 19-м туре (ничья с Астон Виллой), маленкое торможение – 3 ничьи в 26-м, 27-м и 28 турах, серия из 6-ти побед подряд, ничья с Уиганом, и финальная ничья с Болтономв последней игре.

МЮ на старте не торопился и в 2-х турах сыграл в ничью (Реадинг и Портсмут). В дальнейшем было сплошное прямолинейное движение к золотым медалям с маленькими остановками в 12-м туре (ничья с Арсеналом), 14-м (проигрыш Болтону), 20-м (проигрыш Вэст Хэму), 25-м и 26-м (ничья на выезде с Тоттенхемом и проигрыш Мансити), 33-м (ничья с Мидлсборо), небольшая остановка в 35-м и 36-м турах (ничья с Блекберном и проигрыш Челси).

Итог чемпионата мы знаем. МЮ – чемпион, Челси – заслужено 2-е место, Арсенал на 3-м месте. Но вопрос, заданный в начале статьи остается. Кто, собственно, сильнее? При всей мощи МЮ уж больно близко находился Челси. Плюс эта победа Челси над МЮ в 36 туре со счетом 2-1.

Мне кажется, что я достаточно близко подвел к решению этой задачи в системе Эло коєффициентов.

Итак, ответ звучит так: „Тот сильнее, у кого площадь на графике, ограниченная сверху линией изменения коэффициента Эло будет больше”.

Для решения этой проблемы нам надо только проинтегрировать функцию изменения Эло для всех команд с 1-го тура по последний. Поскольку функция задана не аналитично, то и интегрировать будем численно. Напрашивается интегрирование методом трапеций.

Итак интегральный Эло коэффициент (Рейтинг Эло 2-го типа) для любой команды турнира может быть вычеслен следующим способом:

[1]

где:
Rинт - интегральный рейтинг команды,
n - количество игр у команды в сезоне,
Rm- значение мгновенного рейтинга Эло (типа 1) команды вычесленный после m-й игры,
R1 - мгновенный рейтинг Эло  команды после 1-го тура
Rn - мгновенный рейтинг Эло  команды после последнего тура тура

В выбранной системе координат величина интегрального рейтинга Эло будет составлять непревычно большую величину, где то на уровне 30000 - 40000 тысяч. Для облегчения исследования и упрощения анализа введем еще один коэффициент Эло. Назовем его интегральный приведенный коэффициент Эло:

[2]

При использовании приведенного интегрального Эло рейтинга его значение будет изменятся в привычных пределах и его можно будет легко сравнивать с мгновенным рейтингом Эло (рейтингом 1-го типа).

В таблице ниже приведены для сравнения:
Rмгн - мгновенное значение рейтинга Эло (1-го типа)
Rинт - интегральное значение рейтинга Эло (2-го типа)
Rир - интегральное приведенное значение рейтинга Эло (2-го типа)

Команда Игр Очки Rмгн Rинт Rип
1 Юнайтед (Манчестер) 38 87 1154,56 40499,06 1094,57
2 Челси (Лондон) 38 85 1165,90 40134,20 1084,71
3 Арсенал (Лондон) 38 83 1134,79 40736,47 1100,99
4 Ливерпуль (Ливерпуль) 38 76 1128,83 39520,27 1068,12
5 Эвертон (Ливерпуль) 38 65 1054,18 38455,98 1039,35
6 Астон Вилла (Бирмингем) 38 60 1024,95 38182,84 1031,97
7 Блекберн Роверз (Блэкберн) 38 58 1022,33 37952,35 1025,74
8 Портсмут (Портсмут) 38 57 995,90 38110,19 1030,01
9 Сити (Манчестер) 38 55 982,72 38140,40 1030,82
10 Вест Хэм Юнайтед (Вест Хэм) 38 49 972,43 37189,45 1005,12
11 Тоттенхем Хотспур (Лондон) 38 46 992,03 36308,25 981,30
12 Ньюкасл Юнайтед (Ньюкастл) 38 43 960,98 36273,13 980,35
13 Миддлсбро (Мидлсборо) 38 42 972,34 35646,01 963,41
14 Уиган Атлетик (Уиган) 38 40 967,11 35229,33 952,14
15 Сандерленд (Сандерленд) 38 39 935,41 35257,97 952,92
16 Болтон Уондерерс (Болтон) 38 37 949,91 34859,09 942,14
17 Реадинг 38 36 913,60 34827,35 941,28
18 Фулхем (Лондон) 38 36 949,81 35212,07 951,68
19 Бирмингем Сити 38 35 932,71 35057,41 947,50
20 Дерби Каунти 38 11 789,51 32648,52 882,39


Проверим себя, проконтролировав выполнение 2-й особенность Эло рейтинга (Сумма рейтингов всех участников турнира постоянна)
Итак
сумма Rмгн = 20000,00 – ошибки нет, мгновенный рейтинг Эло рассчитан правильно.
сумма Rип = 20006,50 – ошибка численного интегрирования всего-то 0,65 %! Даже не верится. Впрочем, мы должны понимать, что значение (порядок величины) этой ошибки не относится к ошибке по определению значения рейтинга у конкретной команды.

Давайте взглянем на сами цифры. Здесь я должен вас огорчить. Арсенал не сильнее Челси и МЮ. Здесь мы стали жертвой моего предположения о равенстве рейтингов всех участников в его начале. Да это видно даже по характеру графиков. Левый край его «слишком» завален вниз. График должен иметь более «горизонтальный» характер

Продолжение