Simulando el descenso del fútbol chileno 🇨🇱⚽️ ¿cuál es la probabilidad de que tu equipo descienda o sea el campeón? 👀

Pablo Galaz Cares
12 min readDec 27, 2020

--

Última actualización ⌛ Fecha 27, U. de Chile 2 vs 0 U. de Concepción, domingo 3 de enero 2021.

Para información actualizada, visitar este post de Médium

El año 2020 fue un año especial y este 2021 parece no cambiar mucho, principalmente por el contexto pandémico del Covid-19 y cómo este virus ha afectado en gran parte las actividades de nuestro diario vivir. Una de las actividades que se vio afectada fue el fútbol. Estadios vacíos, burbujas sanitarias y estrictos protocolos han hecho que esta pasión solo se pueda disfrutar a distancia desde nuestros hogares.

¿En qué está la primera división del fútbol chileno? 👀

En Chile, el fútbol estuvo pausado durante gran parte del año y recién se retomó la actividad el día sábado 29 de agosto con el encuentro entre Colo Colo y Santiago Wanderers. En ese momento habían transcurrido solo 7 fechas de un total de 34, Universidad Católica era el principal candidato a llevarse el título (el cuál sería el tercero en forma consecutiva) y, en la parte baja, los recién ascendidos Deportes La Serena y Santiago Wanderers eran algunos de los principales clubes que estarían disputando salvarse del descenso, junto a equipos de mal rendimiento en el torneo del 2019 como Universidad de Concepción, Deportes Iquique e, incluso, Universidad de Chile, uno de los más grandes del país. Al final del torneo 3 equipos perderán la categoría y jugarán en la segunda división de país (Primera B) el año 2021.

Actualmente, transcurridas 27 fechas (algunos clubes han jugado menos partidos debido a suspensiones por participación en torneos internacionales o protocolos sanitarios) el panorama es incierto y lo más sorprendente es que Colo Colo, el equipo con más títulos a nivel nacional, está último en la tabla de posiciones y estaría descendiendo directamente, algo inédito pues Colo Colo nunca ha descendido de la máxima categoría del fútbol chileno.

En este post revisaremos una simulación de la fechas restantes del torneo nacional, el reglamento para definir a los descendidos y mostraremos las probabilidades de descender de cada uno de los equipos que están “en la zona roja”.

El descenso ☠️

El año 2019, cuando el torneo chileno llevaba disputadas 24 de las 30 fechas, las autoridades decidieron suspender el torneo debido al estallido social que se comenzó a vivir en el país a partir del 18 de octubre de ese año. Ante la incertidumbre, la ANFP (Asociación Nacional de Fútbol Profesional) decidió que no existirían descensos pero, que para el año 2020, 3 equipos deberán descender. Para esto se definieron 2 tablas:

  • Tabla Absoluta: tabla de puntajes correspondientes al torneo del año 2020.
  • Tabla Ponderada: tabla de puntajes ponderados por partido jugado entre los torneos del año 2019 (60%) y 2020 (40%).

Matemáticamente: 60% x (Pts 2019/PJ 2019) + 40% x (Pts 2020/PJ 2020)

Los 3 cupos se definen de la siguiente forma:

  • Primer descendido: el último de la Tabla Absoluta.
  • Segundo descendido: el último de la Tabla Ponderada. En el evento de que este equipo sea el mismo según el criterio anterior, lo reemplazará el penúltimo de la Tabla Ponderada.
  • Tercer descendido: el perdedor entre un partido único organizado por la ANFP, que disputarán los equipos que ocupen el penúltimo lugar de la Tabla Absoluta y el penúltimo lugar de la Tabla Ponderada, o el antepenúltimo de esta ultimo tabla en el evento que el penúltimo hubiese descendido según el numeral precedente. Si es un solo equipo el que reúne las condiciones señaladas en este numeral descenderá automáticamente.

Entonces, el caso base sería cuando los últimos de ambas tablas son distintos, el penúltimo de la tabla Absoluta es distinto al penúltimo de la Tabla Ponderada y, viceversa, el penúltimo de la Tabla Ponderada es distinto al de la Tabla Absoluta. Gráficamente, así sería el descenso.

Caso Base descensos

Casos especiales

La gráfica de arriba muestra cómo están distribuidos los cupos pero se pueden dar ciertas combinaciones que cambiarían un poco esta distribución.

Casos bien definidos

1)El último de la Tabla Absoluta es el mismo de la Tabla Ponderada, en ese caso el segundo descendido pasa a ser el penúltimo de la Tabla Ponderada y, el tercer descendido será el perdedor entre el penúltimo de la Tabla Absoluta y el antepenúltimo de la Tabla Ponderada, o ese equipo en caso de que sea el mismo.

Caso Último TA igual a último TP

2)Los últimos de ambas tablas son distintos, el último de la Tabla Absoluta es el penúltimo de la Tabla Ponderada y el último de la Tabla Ponderada es distinto al penúltimo de la Tabla Absoluta, en ese caso, se mantienen el primer y segundo descendido y, el tercer descendido sería el perdedor del partido entre el penúltimo de la Tabla Absoluta y el antepenúltimo de la Tabla Ponderada.

Caso último TA distinto a último TP y último TA igual a penúltimo TP

Casos difusos

Existen otros casos que, según las bases de la ANFP, no está claro cómo sería el descenso. Estos casos se hacen particularmente interesante porque podría darse un partido de definición entre Colo-Colo y Universidad de Chile, los 2 equipos más grandes del país.

1)El último de la Tabla Absoluta es igual al último de la Tabla Ponderada y el penúltimo de la Tabla Absoluta es igual al penúltimo de la Tabla Ponderada, en ese caso, en las bases se especifica que el partido de definición del tercer descendido tendrá que disputarlo el antepenúltimo de la Tabla Ponderada pero no hace mención al antepenúltimo de la Tabla Absoluta. Además, en las bases dice:

Tercer descendido: … “Si es uno solo el equipo que reúne las condiciones señaladas en este numeral desciende automáticamente”…

Esto hace pensar que el antepenúltimo de la Tabla Ponderada podría descender automáticamente.

Caso último TA igual a último TP y penúltimo TA igual a penúltimo TP

2)Los últimos de las tablas son distintos, el último de la Tabla Absoluta es el penúltimo de la Tabla Ponderada y viceversa, el último de la Tabla Ponderada es el penúltimo de la Tabla Absoluta, en ese caso, al igual que el punto anterior, no queda claro si el antepenúltimo de la Tabla Absoluta deberá disputar el encuentro definitorio contra el antepenúltimo de la Tabla Ponderada, o si este último mencionado desciende automáticamente.

Caso último TA igual al penúltimo TP y último TP igual a penúltimo TA

3)Los últimos de ambas tablas son distintos, el último de la Tabla Absoluta es distinto al penúltimo de la Tabla Ponderada y el último de la Tabla Ponderada es igual al penúltimo de la Tabla Absoluta, en ese caso, el tercer descendido se definiría entre el penúltimo de la Tabla Ponderada y el antepenúltimo de la Tabla Absoluta, pero no está definido qué pasa con el antepenúltimo de la Tabla Absoluta.

Caso últimos distintos, último TA distinto a penúltimo TP y último TP igual al penúltimo de TA

¡Simulemos el torneo!

La metodología que usaremos se resume a modelar el proceso de conversión de goles como un proceso de Poisson. Para esto, debemos estimar tasas de conversiones de goles de los equipos a través de una regresión de Poisson utilizando los resultados del torneo 2020 de los partidos ya jugados. Además, estimaremos y utilizaremos el efecto de la localía al momento de simular cada uno de los partidos. Luego, simularemos cada uno de los partidos restantes del torneo muchas veces (10.000 para ser exactos!! 😮) y calcularemos cómo debería terminar el torneo. Finalmente, calcularemos los puntajes de ambas tablas (Absoluta y Ponderada) y determinaremos quiénes son los equipos que descienden en cada torneo simulado para obtener el % de veces que un equipo desciende de cada una de las 3 formas descritas anteriormente.

¿Por qué goles como un proceso de Poisson?

Hay papers que utilizan esta metodología y se realizan test estadísticos de similitud de distribuciones para demostrarlo. En resumen, podemos ver gráficamente que las distribuciones de los goles reales tiene mucha similitud con la distribución teórica de un proceso de Poisson de parámetro igual a la media de los goles convertidos de local y de visita, respectivamente.

Ahora que los “convencí” de esto, vamos con la simulación 🤓

La simulación en código 💻

Notebook, Tabla de Posición 2019 y 2020 en GitHub: https://github.com/pablogalazcares/football-DS-projects.git

Además de las librerías comunes como pandas, numpy, matplotlib, entre otras, usaremos las librerías scipy y statsmodels para ajustar nuestro modelo y obtener las tasas de conversión de goles de cada equipo.

Los datos a usar para ajustar el modelo son los partidos del torneo 2020 que ya se disputaron (df_matches). Las variables son Local, Visita, Goles Local, Goles Visita y una variable binaria que representa si un partido ya fue jugado. También tenemos otros 2 DataFrames que representan las tablas de puntajes del torneo 2019 (df_tabla_2019) y torneo 2020 (df_tabla_2020). Luego, ajustamos el modelo con los partidos jugados. El nombre del modelo es poisson_model.

Pasando ya a la simulación, nos enfocamos en los partidos que no se han jugado. El output son 2 DataFrames, uno para el equipo local y uno para el equipo visitante, que contienen los goles convertidos por cada equipo, en cada partido, en cada uno de los torneos simulados. Los DataFrames llevan por nombre sim_poisson_local y sim_poisson_visita. Recordar que simulamos 10.000 veces el torneo 2020 (N_sim = 10000).

Los DataFrames resultantes tienen en el índice los el id del partido y el equipo Local (Visita) y las columnas representan el número del torneo simulado (1 a 10.000). El valor de la celda representa los goles convertidos por el equipo en ese partido-simulación.

Ejemplo DataFrames: goles convertidos en cada partido, por cada equipo, en cada simulación

Ahora que ya tenemos los torneos (partidos) simulados, vamos a calcular cómo hubiese terminado cada una de las 2 tablas (Absoluta y Ponderada) en cada uno de los torneos simulados en base a los puntos, diferencia de goles (goles a favor — goles en contra) y posición en que cada equipo finalizó.

Con esta información ya sabemos qué equipo fue el último, penúltimo y antepenúltimo de cada tabla y calcularemos las probabilidades de cada uno de los equipos de descender en cada uno de los 3 posibles cupos en base a los casos explicados anteriormente. Acá consideramos los siguientes supuestos para los casos difusos o no(tan bien) definidos:

Supuesto: para el tercer descendido, asumiremos que siempre se juega un partido de definición (ya sea el penúltimo o antepenúltimo de la Tabla Absoluta y/o Ponderada), aun cuando en las bases no especifica esos casos.

Para el resultado, desplegaremos un DataFrame con 4 columnas:

  • Probabilidad primer cupo (1): porcentaje de veces que terminó último en la Tabla Absoluta.
  • Probabilidad segundo cupo (2): porcentaje de veces que terminó último en la Tabla Ponderada o alguno de los casos relacionados.
  • Probabilidad de tercer cupo (3): porcentaje de veces que descendió por haber perdido el partido definitorio o descender automáticamente para los casos difusos. Para el partido de definición se asume que será en terreno neutral y se le sacó el efecto de la localía.
  • Probabilidad de descender (Prob Desc): suma de las 3 columnas.
Distribución de probabilidades de descenso

Resultados

La tabla está ordenada de mayor probabilidad de descender a menor, es decir, la Universidad de Concepción (90%) es el equipo que más probabilidad tiene de descender, seguido de Iquique (73%), Colo Colo (50%) y Coquimbo Unido (45%). Luego, asoma Audax Italiano (15%) muy alejado de los otros 4 clubes.

Es llamativo el caso de Coquimbo Unido pues el conjunto de la región homónima está disputando las semifinales de la Copa Sudamericana (juega contra Defensa y Justicia 🇦🇷) con un gran rendimiento en ese certamen que no ha podido traspasar al torneo local. Algunas hipótesis es que están privilegiando el torneo internacional en desmedro del torneo local.

Primer descendido

Colo Colo (38%) y Coquimbo Unido (32%) son los equipos con mayor probabilidad de descender por salir últimos en la Tabla Absoluta. Los otros clubes complicados son U. de Concepción (15%) que tiene 2 partidos más que el resto y Audax Italiano con un 5% de descender y un partido más disputado.

Segundo descendido

Universidad de Concepción (75%) e Iquique (25%) son los equipos con mayor probabilidad de descender por salir últimos en la Tabla Ponderada (o alguna de los casos relacionados). Es decir, Universidad de Concepción desciende en 3 de cada 4 torneos disputados aproximadamente. Estos clubes, en conjunto, se llevan casi el 100% de los casos. Los otros clubes con muy baja probabilidad (menor a un 1%) son Universidad de Chile y Everton.

Tercer descendido

En el caso del tercer descendido (partido de definición o descenso automático) es más pareja la distribución de probabilidad. Iquique (33%) es el club con más probabilidades de descender a través de esta vía, seguidos de Coquimbo Unido (12%) y Colo Colo (12%), sumándose Universidad de Concepción (11%). También aparece en la lista Audax Italiano (9%) y Universidad de Chile con un 6%.

Casos difusos

Calculamos la probabilidad de que ocurra alguno de los casos difusos definidos anteriormente. Estos casos ocurren en total en un 21% de los torneos simulados. El caso que más se repite es el caso difuso Nº3 cuando los últimos son distintos, el último de la Tabla Absoluta es distinto al penúltimo de la Tabla Ponderada y el penúltimo de la Tabla Absoluta es igual al último de la Tabla Ponderada con un 18%. Los casos difusos Nº1 y Nº2 ocurren ambos un 1%. Estos casos toman fuerza ante la posibilidad de que Deportes Iquique termine último en ambas tablas.

Por otra parte, para el tercer descendido es muy probable que se decida mediante un partido entre el penúltimo de la Tabla Absoluta y el penúltimo de la Tabla Ponderada, es decir, el Caso Base con un 63% de ocurrencias. Aquí una tabla resumen con todos los casos.

Distribución de probabilidades de casos

¿Y qué pasa con el campeón? 🏆

No nos olvidamos de esto, pero la carrera por el campeonato está menos pareja que el descenso. Universidad Católica tiene un 68% de probabilidades de salir campeón mientras que su más cercano perseguir, Unión La Calera tiene un 30%. El otro club que aparece en la lista es Unión Española con un escueto 2% de salir campeón. Para ejemplificar, en 7 de cada 10 torneos, sale campeón Universidad Católica.

Partido de definición entre Colo-Colo vs Universidad de Chile

Calculamos también la probabilidad de que los 2 equipos más grandes del país se enfrenten en un posible partido de definición. La posibilidad existe, más aún con los últimos triunfos de Colo Colo y U. de Chile ante D. Antofagasta y U. de Concepción, respectivamente. La probabilidad de tener un superclásico es de 3%, baja pero puede que se alinean los astros y veamos este duelo.

Conclusiones

Está poco claro ciertos casos de descenso del tercer descendido. En particular cuando debería disputar el partido de definición el antepenúltimo de la Tabla Absoluta. Ya estamos iniciando contacto con la ANFP 🇨🇱 para aclarar esta situación del reglamento.

Los equipos más complicados son Universidad de Concepción, Iquique, Colo Colo y Coquimbo Unido. Vale mencionar que los equipos recién ascendidos, Deportes La Serena y Santiago Wanderers, han logrado tener buenas campañas que le permitirían mantenerse en la categoría y con baja probabilidad de descenso (5% ambos).

Es llamativo la situación de Colo Colo pues, a pesar de ser el equipo con más títulos del país, con más aficionados y nunca haber descendido, está en una posición bien delicada. Esta situación se suma a la vivida por otros grandes clubes a nivel sudamericano como River Plate 🇦🇷, Independiente 🇦🇷, Inter de Porto Alegre 🇧🇷 y Cruzeiro 🇧🇷

Espero que les haya gustado, que puedan compartirlo con sus amistades, familiares, en el trabajo o cualquier lugar donde puedan compartir y conversar de fútbol. Estaré actualizando los resultados a medida que el torneo vaya avanzando para que podamos continuar la discusión de cómo va tu equipo favorito. Cualquier comentario será bien recibido y siéntanse con toda confianza de preguntar.

--

--

Pablo Galaz Cares

I ❤️ Football and learning about Data Science. PhD Candidate, M. Sc. Operation Research, Universidad de Chile 🦉 Sports assistant manager, Club U. de Chile 🔵🔴