El promedio de las encuestas realizadas por EL PAÍS sitúa a Claudia Sheinbaum como la principal candidata a la presidencia de México, con casi el 60% de los votos estimados, muy por delante de Xóchitl Gálvez (36%) y Jorge Álvarez Máynez (5%). . Tres meses después de la votación, el candidato de Morena resulta claramente favorecido.
¿Pero qué posibilidades tienes de ganar?
Para responder a esta pregunta, construimos un modelo de predicción, similar al que utilizó EL PAÍS en las elecciones de 2018 y en otras veinte elecciones en diferentes países. Como se explica en la metodología, el modelo funciona en tres pasos: (1) partimos del promedio de encuestas anteriores, (2) incorporamos un cierto grado de incertidumbre en torno al mismo, con base en el éxito histórico de las encuestas en México, y ( 3 ) simulamos la elección 20.000 veces para calcular las probabilidades de cada resultado.
Nuestra predicción dice que Claudia Sheinbaum tiene un 89% de posibilidades de ganar, pero su rival Xóchitl Gálvez conserva una opción de 1 entre 10 de sorprender.
Es importante interpretar bien estas probabilidades. Sheinbaum es claramente la favorita y su victoria es diez veces más probable que la de Gálvez, pero eventos con un 11% de probabilidad no son imposibles. Una estadística futbolística sirve como referencia: la derrota de Sheinbaum es más probable que ver fallados los dos primeros penales de una serie.
Este periódico ya había publicado predicciones de este tipo para las elecciones presidenciales hace seis años. Nuestra primera predicción decía en marzo de 2018 que López Obrador tenía un 79% de posibilidades de ganar; Este último, a pocos días de las elecciones, elevó sus opciones al 97%, anticipando lo que sucedería a continuación.
Gálvez recupera terreno
Desde otoño, las encuestas tienden a reducir la distancia entre Sheinbaum y Gálvez, desde los 32 puntos de diciembre hasta los 24 actuales. Por un lado, es evidente un salto adelante de Gálvez, coincidiendo con la erosión de Movimiento Ciudadano. cuando se anunció que su candidato sería Jorge Álvarez Máynez y no Samuel García, quien parecía el favorito en noviembre. Al mismo tiempo, desde enero se ha producido una ligera caída para Sheinbaum, que pasó de un promedio de 62% a 60% de intención de voto.
En las próximas semanas será fundamental seguir la evolución de estas tendencias, aunque el margen de Sheinbaum sea considerable.
El error de la encuesta
Modelos como el nuestro convierten las encuestas en pronósticos al incorporar información adicional: la precisión histórica de las encuestas. ¿Qué tan grandes son tus errores? ¿Qué posibilidades hay de que les falten 5 o 15 puntos? Para averiguarlo, analizamos decenas de encuestas en México y miles de otros países.
Las encuestas fueron buenas en las elecciones presidenciales mexicanas de 2006 y 2012, pero se desviaron más en 2000 y 2018. Aunque hace seis años vaticinaban la victoria de López Obrador, lo cierto es que le dieron seis puntos menos de lo que había logrado. y un error de seis puntos, en otras circunstancias, puede cambiar el resultado. En estos cuatro eventos, las encuestas arrojaron un error promedio por candidato de 3,8 puntos de voto -considerando sólo aquellos que superan el 10%-. Es decir, eran habituales desviaciones de 4 o 5 puntos y el margen de error era de unos 9 puntos. Las encuestas fueron mejores en las elecciones legislativas de 2009, 2015 y 2021: allí el error medio fue de 2,1 puntos, una precisión elevada, similar a la de los sondeos en Estados Unidos o España. Sin embargo, aplicando un principio de precaución, utilizamos los primeros datos, es decir, 3,8 puntos de error, como base para nuestro modelo de predicción.
Además, nuestra metodología también amplía la incertidumbre en función del tiempo que queda hasta la votación. A tres meses de la votación de junio, el margen de error (90%) es de unos 16 puntos para un candidato con alrededor del 50% de los votos, por lo que Sheinbaum ronda el 90% de las opciones.
Metodología
Los pronósticos se producen mediante un modelo estadístico basado en encuestas y su precisión histórica. Uno similar a los que usamos en nosotros mismos. España en 2023 Y dos veces en 2019En Andalucía, Cataluña O Madrid. . También en México hace seis años, en Francia O El Reino Unido. El modelo funciona en tres etapas: 1) agregar y promediar encuestas, 2) incorporar la incertidumbre esperada y 3) simular 20.000 elecciones para calcular probabilidades.
Paso 1. Promediar las encuestas. Nuestro promedio tiene en cuenta decenas de encuestas para mejorar su precisión. Los datos se recogieron principalmente a través de la web. Oraculus.mx. La media se pondera para dar un peso diferente a cada encuesta en función de dos factores: el instituto encuestador (las empresas sin trayectoria tienen menos peso; las que no publican sus datos al INE están excluidos) y la fecha. Queremos darle más peso a las encuestas recientes a la hora de calcular la media y que el último día sólo cuenten las últimas publicadas por cada encuestadora. Por esta razón asignamos pesos a las encuestas según una ley de decaimiento exponencial. Y definimos un rango de exclusión que ignora las encuestas de más de 30 días. Además, penalizamos la repetición de encuestas por parte del mismo entrevistador. Al promediar una fecha, la encuesta más cercana de cada casa tiene un peso de uno, pero el resto de encuestas casi se ignoran.
Promedios como el nuestro pueden verse como una estimación de consenso. En lugar de depender de un único encuestador, añaden los criterios y suposiciones de muchos. Los promedios reducen el ruido, evitando que las tendencias suban y bajen por casualidad. Y especialmente: Se ha demostrado que mejora la precisión..
Paso 2. Incorporar la incertidumbre de la encuesta. Este es el paso más complicado e importante. Necesitamos estimar la precisión esperada de las encuestas en México. ¿Qué tan grandes son los errores comunes? ¿Qué posibilidades hay de que se produzcan errores de 3, 5 o 15 puntos? Para responder a estas preguntas se estudian decenas de encuestas en México y miles a nivel internacional.
Calibrar los errores esperados. Primero estimé el error de las medidas en México. Construí una base de datos con encuestas de siete elecciones desde el año 2000. El error medio absoluto (MAE) de los promedios de las encuestas en México, por candidato o partido, considerando aquellos con más del 10% de los votos, fue de alrededor de 3.8 puntos en las elecciones presidenciales y 2,2 puntos en las legislativas. Es decir, eran habituales desviaciones de cuatro o cinco puntos y el margen de error (95%) era de aproximadamente nueve puntos. Como siete elecciones no son suficientes para sacar conclusiones definitivas, analizamos también una veintena de votos en otros países latinoamericanos, donde el error MAE ascendió a 4,1 puntos. Al final, desde un punto de vista conservador, decidí que nuestro modelo supone un MAE de 3,8 puntos en México.
Además, esta incertidumbre se modula teniendo en cuenta dos factores adicionales: el tamaño del candidato/partido (porque es más fácil estimar el voto de un partido si ronda el 5% que si está cerca del 50%) y la proximidad de las elecciones (porque las encuestas casi siempre son más precisas al final). Para adaptar esta parte del modelo recurrí a la base de datos de Jennings y Wlezien, publicado en la naturalezay analizó los errores de 4.100 encuestas en 241 elecciones en 19 países occidentales.
Elección del tipo de distribución. Para incorporar incertidumbre en el voto de cada candidato/partido en cada simulación utilizo una distribución multivariada. Utilizo distribuciones t-student en lugar de las normales para que tengan colas más largas (curtosis): esto hace que sea más probable que ocurran eventos muy extremos. Las ventajas de esta hipótesis. Nate Silver lo explicó. Estimé el nivel de curtosis con la base de datos anterior. Luego defino la matriz de covarianza de estas distribuciones para que la suma de los votos no supere el 100% (una idea de Chris Hanretty). Finalmente, se debe escalar el ancho de las matrices de covarianza para que las distribuciones de calificaciones resultantes tengan el MAE y la desviación estándar esperados según la calibración.
Paso 3. Simulación. El último paso es ejecutar el modelo 20.000 veces. Cada iteración es una simulación de la elección con porcentajes de voto que varían según la distribución definida en el paso anterior. Los resultados de estas simulaciones nos permiten calcular la probabilidad que tiene cada candidato de ser el más votado y de obtener la presidencia.
¿Por qué encuestas? Este modelo se basa íntegramente en encuestas. Existe la percepción de que las encuestas no son fiables, pero la verdad es que las encuestas funcionan. Las encuestas rara vez son perfectas, pero No existe ninguna alternativa que haya demostrado ser mejor..
Suscríbete a la newsletter de EL PAÍS México y al canal WhatsApp electoral y recibe toda la información clave sobre la actualidad de este país.