A pocos días de la votación, las encuestas muestran a Claudia Sheinbaum como la gran favorita a la presidencia de México. En el promedio de las encuestas procesadas por EL PAÍS, el candidato oficialista obtiene alrededor del 54% de los votos estimados, muy por delante de Xóchitl Gálvez (36%) y Jorge Álvarez Máynez (10%).
Sheinbaum ha visto reducir su ventaja en las últimas semanas. Le sacaba más de 30 puntos a Gálvez, frente a los 18 puntos actuales. Pero su margen sigue siendo amplio en casi todos los estudios demográficos. No se puede descartar una sorpresa si las encuestas fracasan estrepitosamente o si ocurre algo nuevo de aquí al domingo, pero ambas cosas son poco probables.
¿Es segura la victoria de Sheinbaum?
Según el modelo de predicción de EL PAÍS, Sheinbaum tiene alrededor del 92% de posibilidades de ganar, frente al 8% que tiene su rival, Xóchitl Gálvez. Nuestro modelo es similar a los que hemos utilizado en decenas de elecciones, incluidas las últimas elecciones presidenciales en México. Como se explica al final, el pronóstico funciona en tres pasos: (1) partimos del promedio de las lecturas; (2) agregamos incertidumbre basada en el error histórico de la encuesta; y (3) simulamos la elección 20.000 veces para asignar probabilidades de ganar.
Como repito a menudo, es importante interpretar correctamente las cifras anteriores: representan probabilidades. Sheinbaum es claramente la favorita, ganando 9 de 10 veces pero Gálvez no está excluido, porque los eventos con un 8% de probabilidad ocurren regularmente. Una sorpresa suya es tan fácil (o difícil) como ver a Stephen Curry u otro especialista en tiros libres fallar un tiro. En realidad, lo que estamos describiendo es la probabilidad de que las encuestas estén lo suficientemente equivocadas (o desplazadas) como para permitir que Gálvez gane a Sheinbaum.
Otros pronosticadores con distinta metodología coinciden en ver a Sheinbaum como la favorita indiscutible este domingo.
La comunidad de predicciones Metaculus, que tiene uno de los mejores casos de éxito, dice que la victoria de Sheinbaum tiene un 89% de probabilidad. Y en el mercado de predicción de Polymarket, le dan un 90% de posibilidades. Finalmente, en Expansión publicaron los resultados de otro modelo basado en encuestas, que eleva la probabilidad de victoria de Sheinbaum al 98%.
Metodología
Los pronósticos se producen mediante un modelo estadístico basado en encuestas y su precisión histórica. Uno similar a los que usamos en nosotros mismos. España en 2023 Y dos veces en 2019En Andalucía, Cataluña O Madrid. . También en México hace seis años, en Francia O El Reino Unido. El modelo funciona en tres etapas: 1) agregar y promediar encuestas, 2) incorporar la incertidumbre esperada y 3) simular 20.000 elecciones para calcular probabilidades.
Paso 1. Promediar las encuestas. Nuestro promedio tiene en cuenta decenas de encuestas para mejorar su precisión. Los datos se recogieron principalmente a través de la web. Oraculus.mx. La media se pondera para dar un peso diferente a cada encuesta en función de dos factores: el instituto encuestador (las empresas sin trayectoria tienen menos peso; las que no publican sus datos al INE están excluidos) y la fecha. Queremos darle más peso a las encuestas recientes a la hora de calcular la media y que el último día sólo cuenten las últimas publicadas por cada encuestadora. Por esta razón asignamos pesos a las encuestas según una ley de decaimiento exponencial. Y definimos un rango de exclusión que ignora las encuestas de más de 30 días. Además, penalizamos la repetición de encuestas por parte del mismo entrevistador. Al promediar una fecha, la encuesta más cercana de cada casa tiene un peso de uno, pero el resto de encuestas casi se ignoran.
Promedios como el nuestro pueden verse como una estimación de consenso. En lugar de depender de un único encuestador, añaden los criterios y suposiciones de muchos. Los promedios reducen el ruido, evitando que las tendencias suban y bajen por casualidad. Y especialmente: Se ha demostrado que mejora la precisión..
Paso 2. Incorporar la incertidumbre de la encuesta. Este es el paso más complicado e importante. Necesitamos estimar la precisión esperada de las encuestas en México. ¿Qué tan grandes son los errores comunes? ¿Qué posibilidades hay de que se produzcan errores de 3, 5 o 15 puntos? Para responder a estas preguntas se estudian decenas de encuestas en México y miles a nivel internacional.
Calibrar los errores esperados. Primero estimé el error de las medidas en México. Construí una base de datos con encuestas de siete elecciones desde el año 2000. El error medio absoluto (MAE) de los promedios de las encuestas en México, por candidato o partido, considerando aquellos con más del 10% de los votos, fue de alrededor de 3.8 puntos en las elecciones presidenciales y 2,2 puntos en las legislativas. Es decir, eran habituales desviaciones de cuatro o cinco puntos y el margen de error (95%) era de aproximadamente nueve puntos. Como siete elecciones no son suficientes para sacar conclusiones definitivas, analizamos también una veintena de votos en otros países latinoamericanos, donde el error MAE ascendió a 4,1 puntos. Al final, siguiendo un principio de precaución, decidí que nuestro modelo supone un MAE de 3.8 puntos en México.
Además, esta incertidumbre se modula teniendo en cuenta dos factores adicionales: el tamaño del candidato/partido (porque es más fácil estimar el voto de un partido si ronda el 5% que si está cerca del 50%) y la proximidad de las elecciones (porque las encuestas casi siempre son más precisas al final). Para adaptar esta parte del modelo recurrí a la base de datos de Jennings y Wlezien, publicado en la naturalezay analizó los errores de 4.100 encuestas en 241 elecciones en 19 países occidentales.
Elección del tipo de distribución. Para incorporar incertidumbre en el voto de cada candidato/partido en cada simulación utilizo una distribución multivariada. Utilizo distribuciones t-student en lugar de las normales para que tengan colas más largas (curtosis): esto hace que sea más probable que ocurran eventos muy extremos. Las ventajas de esta hipótesis. Nate Silver lo explicó. Estimé el nivel de curtosis con la base de datos anterior. Luego defino la matriz de covarianza de estas distribuciones para que la suma de los votos no supere el 100% (una idea de Chris Hanretty). Finalmente, se debe escalar el ancho de las matrices de covarianza para que las distribuciones de calificaciones resultantes tengan el MAE y la desviación estándar esperados según la calibración.
Paso 3. Simulación. El último paso es ejecutar el modelo 20.000 veces. Cada iteración es una simulación de la elección con porcentajes de voto que varían según la distribución definida en el paso anterior. Los resultados de estas simulaciones nos permiten calcular la probabilidad que tiene cada candidato de ser el más votado y de obtener la presidencia.
¿Por qué encuestas? Este modelo se basa íntegramente en encuestas. Existe la percepción de que las encuestas no son fiables, pero la verdad es que las encuestas funcionan. Las encuestas rara vez son perfectas, pero No existe ninguna alternativa que haya demostrado ser mejor..
Suscríbete a la newsletter de EL PAÍS México y al canal WhatsApp electoral y recibe toda la información clave sobre la actualidad de este país.