Metodología

Cómo validamos un sistema antes de operarlo

Cualquiera puede encontrar un patrón en datos históricos. La pregunta es si ese patrón sobrevivirá en el futuro. Estos son los cinco filtros que aplicamos antes de que una sola señal llegue a los suscriptores.

El problema del overfitting es la mayor amenaza en el desarrollo de sistemas de apuestas. Con suficiente tiempo y datos históricos, es posible construir un sistema que haya "predicho" perfectamente el pasado — pero que no tenga ninguna ventaja real sobre el mercado futuro. Cada uno de los cinco tests descritos a continuación está diseñado específicamente para detectar y eliminar estos sistemas sobreajustados antes de que lleguen a operación real.

116.000

partidos analizados

11

temporadas de histórico

5

filtros de robustez

01

Backtesting sobre muestra completa

11 temporadas · 116.000 partidos

El primer filtro es el más básico: el sistema debe generar ROI positivo sobre la muestra histórica completa. Utilizamos datos históricos verificados desde la temporada 2015-16, lo que proporciona una muestra de más de 116.000 partidos en las principales ligas europeas.

Un sistema que no supera este filtro ni merece análisis posterior. Pero superarlo tampoco es suficiente — una muestra grande permite que el ruido estadístico se acumule y genere falsos positivos. Por eso este test es necesario pero no suficiente.

El umbral mínimo que exigimos: ROI positivo en al menos 8 de 11 temporadas, con ROI agregado superior al 5%.

Muestra mínima: 50 operaciones11 temporadasROI > 5% agregado
02

Significancia estadística (p-value)

Umbral p < 0.05

Un ROI positivo puede ser fruto del azar, especialmente con muestras pequeñas. El p-value mide la probabilidad de que los resultados observados se hayan producido por casualidad bajo la hipótesis nula (un sistema sin ventaja real generando los mismos números).

Exigimos p < 0.05, lo que significa que hay menos de un 5% de probabilidad de que los resultados sean ruido estadístico. Para sistemas con muestras reducidas (menos de 100 operaciones por temporada), elevamos el umbral a p < 0.01.

Este filtro elimina la mayoría de "sistemas" que circulan en comunidades de apostadores: sin este análisis, un racha afortunada en una temporada puede parecer un sistema sólido.

p < 0.05 mínimop < 0.01 en muestras pequeñasTest binomial
03

Walk-Forward Analysis

Validación dinámica temporada a temporada

El walk-forward analysis simula cómo habría operado el sistema si hubiéramos ido descubriendo los datos año a año, en lugar de optimizarlo sobre toda la muestra de golpe.

El procedimiento: entrenamos los parámetros del sistema sobre las primeras N temporadas, luego lo aplicamos sin modificar a la temporada N+1. Repetimos el proceso desplazando la ventana hacia adelante. Cada temporada "de test" ha sido genuinamente out-of-sample en su momento.

Un sistema que solo funciona cuando conocemos el futuro (optimización in-sample) se colapsa en el walk-forward. Los sistemas que sobreviven este test tienen parámetros robustos, no ajustados al pasado.

Ventana deslizante anualSin look-ahead biasParámetros fijos en test
04

Out-of-Sample Testing (OOS)

Reserva del 20% de datos para validación

Antes de definir los parámetros del sistema, reservamos el 20% más reciente de la muestra histórica como conjunto de validación. Este bloque no se toca durante el desarrollo.

Una vez que el sistema supera los tests anteriores sobre el 80% restante, lo aplicamos al bloque reservado sin modificación alguna. Si el ROI colapsa en el OOS, el sistema está sobreajustado al período de entrenamiento — lo descartamos.

Esta metodología es estándar en machine learning y modelización cuantitativa, pero raramente aplicada en el mundo de las apuestas deportivas. Es nuestro filtro más exigente: un sistema puede pasar los tests anteriores por azar, pero difícilmente superará el OOS si no existe una ineficiencia real en el mercado.

20% datos reservadosSin modificación en OOSFiltro anti-overfitting
05

Consistencia entre ligas y temporadas

El patrón debe ser universal, no local

Una ineficiencia de mercado genuina debería aparecer en múltiples ligas y temporadas, no solo en una liga concreta durante un período específico. Si un sistema funciona únicamente en La Liga entre 2019 y 2022, no es una anomalía estadística — es ruido.

Exigimos que el sistema muestre ROI positivo en al menos el 70% de las ligas donde aplica y en al menos el 70% de las temporadas analizadas. Las ligas con comportamiento históricamente negativo se excluyen explícitamente (no se ocultan en el agregado).

Este test también detecta un fallo frecuente: sistemas que "funcionan" en el agregado pero con una sola liga o temporada excepcional que eleva el promedio. La consistencia transversal es la señal más fiable de que existe una ineficiencia estructural en el mercado.

> 70% ligas positivas> 70% temporadas positivasExclusiones documentadas

Por qué la mayoría de sistemas de apuestas fracasan

El 95% de los sistemas publicados en foros, grupos de Telegram y webs de picks nunca han pasado un test de significancia estadística. Sus creadores han encontrado un patrón en los datos históricos — algo completamente inevitable si buscas lo suficiente — y lo han presentado como una ventaja real.

La trampa es elegante: si analizas 500 variables sobre 10 temporadas de fútbol, estadísticamente encontrarás decenas de correlaciones con p-value inferior a 0.05 simplemente por azar. Esto se denomina data snooping o búsqueda exhaustiva de patrones, y genera la ilusión de sistemas rentables que colapsan en cuanto se operan en real.

Los cinco filtros descritos en esta página no garantizan rentabilidad futura — ningún método estadístico puede hacerlo. Lo que sí garantizan es que los sistemas que los superan tienen una probabilidad estadísticamente significativa de reflejar una ineficiencia real en el mercado, y no simplemente ruido en los datos históricos.

Los sistemas activos han superado los cinco filtros. Los resultados son públicos y verificables.

Ver historial completo de resultados