Calibration probabiliste

🎚️ Le modèle est-il honnête ?

Le test ultime d'un modèle de probabilité : quand il dit "70% de chance", est-ce que 70% de ces prédictions gagnent vraiment ? Si oui, le modèle est calibré (honnête). Sinon, ses pourcentages sont du bruit.

Picks évalués

647

2026-04-23 → 2026-05-03

Brier score

0.2309

0 = parfait · 0.25 = pile/face · < 0.22 = signal réel

Log-loss

0.6543

Plus bas = mieux calibré

Win rate

53.3%

Sur cote moyenne 1.99

📈 Calibration : ce qu'on annonce vs ce qu'on observe

Chaque cercle est un bin de prédictions, positionné par sa probabilité moyenne (axe X) et son win rate observé (axe Y). La taille du cercle reflète le nombre de picks dans le bin. La diagonale violette est la calibration parfaite : modèle qui dit X%, gagne X%.

Gap < 5pp (bien calibré) Gap 5-10pp (acceptable) Gap > 10pp (à creuser)

📋 Données par bin

Bin probabilité	N	Prob moyenne	WR observé	Gap
[0.3–0.4]	111	36.5%	33.3%	-3.1pp
[0.4–0.5]	171	45.9%	43.3%	-2.6pp
[0.5–0.6]	207	54.6%	57.0%	+2.4pp
[0.6–0.7]	102	64.4%	70.6%	+6.1pp
[0.7–0.8]	41	74.2%	80.5%	+6.3pp
[0.8–0.9]	13	83.1%	76.9%	-6.2pp
[0.9–1.0]	2	91.0%	50.0%	-41.0pp

🧠 Comment lire ces chiffres

Brier score : Σ(p_modèle − résultat)² / N. C'est l'erreur moyenne au carré entre la probabilité prédite et l'issue réelle (0 ou 1). Un Brier de 0.25 correspond à du pile/face. 0.22 = signal honnête sur ≥150 picks. Plus bas = meilleure calibration ET meilleure résolution.

Log-loss : pénalise les prédictions confiantes mais fausses (un "95%" qui perd compte beaucoup). Si le modèle est plus précis sur les picks confiants, le log-loss baisse rapidement.

Gap par bin : différence WR observé − prob moyenne dans chaque tranche. Un gap positif = le modèle sous-estime ses chances (les "70% prédits" gagnent en fait 75%). Un gap négatif = il sur-estime. Petit n par bin = pas conclure.

🎯 Pourquoi c'est plus important que le ROI

Un modèle peut avoir un ROI positif par chance sur petite série. Mais un modèle bien calibré sur ≥200 picks signifie que ses probabilités reflètent la réalité — c'est un signal beaucoup plus difficile à fabriquer. La calibration est ce qui distingue un "lucky streak" d'un vrai edge.

Concrètement, si tu mises selon Kelly fractionnaire, ton espérance de croissance long-terme dépend directement de la précision de tes probabilités. Un modèle mal calibré qui produit 60% sur des matchs où la vraie prob est 50% va te faire perdre de l'argent même avec un staking parfait.

📐 Métriques détaillées (WR par tier, ROI par sport, calibration sur sous-segments) : Backtest. Définitions : Académie. Protocole formel : Méthodologie.

Régénéré : 2026-05-03 06:10 UTC