Работая риск-аналитиком клуба букмекерского пула, я ежедневно просеивают тонны чисел. Без системного подхода они превращаются в белый шум, с подходом расступаются, показывая вероятностные коридоры. Ниже — мой проверенный маршрут, позволяющий выжать из сухого протокола матчей живой курс коэффициента.

статистика

Сбор исходных данных

Начинаю с груминга входных файлов. Сырые ленты Opta и WyScout содержат три распространённых дефекта: дубли, разрывы времени, конкатенацию чужих лиг. Применяю дедупликацию по композитному ключу (дата-клуб-игрок-тайм), далее сглаживаю пустоты интерполяцией «скользящее окно + медиана». Лишние чемпионаты отсеиваю множественной корреспонденцией Крамера: связь турнира и средней интенсивности прессинга выдаёт чужие записи. — матрица, где каждая строка описывает владение в формате event-stream.

Оценка xG-моделей

Голая статистика ударов больше путает, чем помогает. Поэтому использую ансамбль xG: два градиентных бустинга и один логистический регрессор с поправкой на куртозис (завышенная вероятность редких выкрутасов). Вес модели задаю апостериорно — через минимизацию лог-лосса на срезе последних 8000 владений. Для калибровки смотрю индекс Бриллианс-Саафелю, измеряющий расхождение квантилей прогноза и факта. Значение ниже 0,02 сигнализирует о корректной аппроксимации, выше — о необходимости ребалансировать признаки расстояния и угла удара.

Белый шум отклонений

Даже идеальная xG-цепочка не стирает стохастику. Оставшийся шум проверяю на гетероскедастичность тестом Уайта, при p-value < 0,05 перехожу на Poisson-Gamma смесь: λ берётся из xG, α — апостериор на основе прошлых 15 туров. Для временной корреляции применяю двухшаговую цепь Маркова — переходы «атака-переход-защита» обучаются на распределении зон по модели зональности Voronoi. овый прогноз голов сворачивается в распределение вероятностей исхода, маржа букмекера убирается формулой перевёртыша (1/∑квоты). Если отклонение коэффициента рынка от моей оценки превосходит 7 %, открываю позицию. Более мелкий перекос оставляю в наблюдаемых: периферийный рынок съест его быстрее, чем успею сделать ставку.

Процесс звучит громоздко, но после автоматизации занимает меньше пяти минут на матч. Зато риск-профиль портфеля из двадцати игр стабильно держится в пределах коэффициента вариации 0,12 — уровень, сравнимый с инвестиционным IG-бондом. Чёткая математика обрывает догадки и оставляет чистую вероятность — единственную валюту в мире ставок.