← Relatório interativo· Relatório completo (partidas)· Resultado final
Validação Out-of-Sample · Backtest 2014 / 2018 / 2022

O modelo foi testado contra a realidade

Antes de prever 2026, reproduzimos o forecast completo das três últimas Copas treinando apenas com dados anteriores a cada uma — e medimos contra os 192 resultados reais. Esta página apresenta as métricas, a comparação entre o modelo estatístico (Poisson), a rede neural e o ensemble, e o resultado final projetado.

01Resultado final projetado — Copa 2026

Argentina
FINAL MAIS PROVÁVEL
1 × 1 · decisão nos pênaltis
Espanha
Campeã projetada: Espanha — vence 38% × 34% o confronto (7,4% de prob. desta final exata; Inglaterra × Espanha vem logo atrás com 7,1%)

Probabilidade de título — ensemble validado

Espanha
19,4%
Inglaterra
18,2%
Argentina
12,6%
França
12,1%
Portugal
10,7%
Brasil
7,3%

Média dos modelos Poisson e rede neural (60.000 simulações cada), conforme protocolo validado no backtest.

Os três modelos lado a lado

SeleçãoPoissonRede NeuralEnsemble
Espanha20,6%18,2%19,4%
Inglaterra16,1%20,4%18,2%
Argentina15,0%10,2%12,6%
França10,3%13,8%12,1%
Portugal8,9%12,5%10,7%
Brasil4,0%10,5%7,3%
Bélgica2,7%5,7%4,2%
Alemanha3,6%3,2%3,4%

A rede neural valoriza Brasil e Inglaterra; o Poisson, Argentina e Marrocos. O ensemble equilibra as duas leituras.

Probabilidade de título por modelo — top 10
Copa 2026 — probabilidade de título por modelo (top 10 pelo ensemble).

02Backtest: reproduzimos 2014, 2018 e 2022 sem olhar o futuro

Para cada Copa, o modelo foi treinado somente com jogos anteriores ao torneio (corte temporal estrito, elencos e rankings da época reconstruídos de fontes datadas) e o torneio inteiro foi simulado 50.000 vezes. As previsões foram então confrontadas com o que de fato aconteceu.

Onde o campeão real ficou no ranking previsto

CopaCampeão realPoissonRede NeuralEnsemble
2014🇩🇪 Alemanha4º · 6,8%4º · 6,4%4º · 6,6%
2018🇫🇷 França6º · 7,5%5º · 10,9%5º · 9,2%
2022🇦🇷 Argentina2º · 15,1%5º · 8,0%2º · 11,6%

Em todas as Copas o campeão real estava entre os 6 favoritos do modelo; em 2022, o ensemble o colocou em 2º. Acertar campeão de Copa é estruturalmente difícil — até o favorito máximo raramente passa de ~20%.

Probabilidade atribuída ao campeão real por modelo
Probabilidade que cada modelo atribuiu ao campeão REAL (maior = melhor).
Métricas 1X2 agregadas das 3 Copas
Métricas de qualidade probabilística nos 192 jogos reais (menor = melhor).

03Jogo a jogo: 192 partidas reais, 4 métricas

MétodoLog-loss ↓Brier ↓RPS ↓Acurácia ↑
Chute uniforme (⅓·⅓·⅓)1,09860,66670,242242,7%
Frequência histórica de Copas1,06570,64610,238742,7%
Poisson melhor calibração1,00750,58440,207356,2%
Rede Neural melhor acurácia1,06110,59850,213458,3%
Ensemble (Poisson + NN) recomendado1,02310,58820,208757,3%

Log-loss/Brier/RPS medem a qualidade das probabilidades; acurácia mede acerto seco do resultado 1X2. O Poisson dá as probabilidades mais honestas; a rede neural acerta mais vencedores; o ensemble une os dois mundos. Calibração (ECE): Poisson+DC 0,057 · Ensemble 0,062 · NN+DC 0,078.

Curva de confiabilidade
Curva de confiabilidade: probabilidade prevista × frequência observada (diagonal = calibração perfeita).

Por Copa (log-loss · acurácia)

CopanPoissonRede Neural
2014640,976 · 59,4%1,006 · 60,9%
2018640,980 · 56,2%1,014 · 59,4%
2022641,067 · 53,1%1,153 · 57,8%

2022 (Catar) foi a Copa mais imprevisível das três para todos os modelos — coerente com as zebras históricas daquela edição (Arábia Saudita × Argentina, Marrocos semifinalista).

04O que foi testado e rejeitado — transparência metodológica

ExperimentoMotivaçãoVeredito
Correção Dixon-Coles (empates)Poisson independente subestima empatesADOTADO melhora na validação interna
Deep ensemble de seeds (NN)Reduzir variância de treinoADOTADO K=3, ganho marginal
Busca de hiperparâmetrosRede menor e mais regularizadaADOTADO hidden=8, dropout=0,3
Temperatura de calibraçãoCorrigir overconfidenceREJEITADO T≈1,00 — NN já calibrada internamente
Elo como feature da redeSinal de qualidade por partidaREJEITADO redundante com embeddings
Modelo Elo→gols no ensembleDiversidade de modeloREJEITADO piora todas as combinações
Ranking FIFA mensal externoFeature de qualidadeDESCARTADO defasado e subsumido pelo Elo

Toda decisão foi tomada em validação temporal interna (últimos 15% do treino), nunca nos jogos de Copa usados como teste — protocolo anti-overfitting pré-comprometido. Lição central dos experimentos: derivados do próprio histórico de placares (Elo, rankings) não acrescentam sinal ao Poisson; o próximo salto exige dados externos (odds de mercado, xG, dados por jogador).

05Como o modelo funciona

Pipeline

1. Regressão de Poisson (ataque/defesa/mando por seleção) sobre ~18.800 jogos desde 2007, com peso por recência e importância do torneio.
2. Rede neural (PyTorch): embeddings de ataque/defesa + MLP de forma recente, perda Poisson, ensemble de 3 seeds.
3. Ajuste por força de elenco 2026 (valor de mercado, ranking FIFA, forma, desfalques).
4. Monte Carlo: 60–200 mil torneios completos (grupos com critérios FIFA, repescagem de terceiros, mata-mata com pênaltis).
5. Ensemble: média das probabilidades dos dois modelos.

Limites honestos

· Futebol tem variância irredutível: o melhor favorito do mundo fica em ~20% de título.
· 3 Copas = amostra pequena no nível torneio; o peso da validação está nos 192 jogos.
· O modelo não vê lesões de última hora, clima, arbitragem ou dinâmica de vestiário.
· Probabilidades calibradas significam: entre 10 eventos previstos com 30%, ~3 devem acontecer — não que o favorito sempre vence.