18 avril 20267 min de lecture

Anatomie d'un signal raté : ce que l'IA nous a appris sur 4 prédictions WTI ratées d'affilée

méthodologietransparenceiabacktestingpétrolesignaux

Un produit qui prédit les marchés et qui ne montre pas ses ratés ment par omission. Cet article fait le contraire : on prend nos cinq derniers signaux WTI ratés, on les ouvre, et on raconte ce que l'autopsie automatique en a tiré — y compris les corrections concrètes qu'on a déployées dans la foulée.

Le contexte : crise Iran, mi-avril 2026

Du 14 au 17 avril, quatre règles indépendantes du moteur GeoPulse ont déclenché des signaux WTI à la hausse sur la même fenêtre de 48 heures :

Règle	Magnitude prédite	Confiance
`mideast_conflict_oil`	+7.5% sur 2j	75%
`oil_chokepoint` (Détroit d'Ormuz)	+10% sur 2j	80%
`nlp_signal_wti` (analyse Mistral)	+6% sur 2j	85%
`sanctions_announced`	+2.5% sur 2j	65%

La logique de chaque règle était défendable. Conflit majeur au Moyen-Orient → choc d'offre → pétrole en hausse. Articles intenses sur Ormuz → blocage anticipé → choc supplémentaire. Le scoring NLP de Mistral allait dans le même sens. Tout convergeait.

Réalité : le WTI a chuté de -7.5% à -8.4% sur les 48h qui ont suivi. Quatre prédictions, quatre échecs. Pas une amélioration partielle, pas un mouvement dans la bonne direction insuffisamment ample. Le marché est parti exactement à l'opposé.

Plutôt que de réajuster en silence

Beaucoup de systèmes de signaux gèrent ce genre de séquence en coulisse : on rebascule un poids, on passe à autre chose, et le client n'entend jamais parler des erreurs. Notre approche est inverse — chaque signal raté a un post-mortem public dans le scoreboard.

Jusqu'à récemment, ce post-mortem était une phrase générique ("le mécanisme asymétrique +5%/-10% a réduit le poids de la règle"). Honnête sur le mécanisme, mais nul sur le diagnostic. Pourquoi le signal a-t-il raté ? Quel facteur dominait ? On ne le disait pas, parce qu'on ne le savait pas vraiment.

Depuis cette semaine, un appel à Mistral Large est déclenché à la résolution de chaque signal. Le modèle reçoit en entrée la règle, la prédiction (asset, direction, magnitude, confiance, horizon), le mouvement réel observé, le prix d'entrée et de sortie, et l'événement déclencheur. Il produit en sortie deux choses :

Une cause primaire parmi un enum fermé : correct, already_priced, magnitude_too_ambitious, wrong_direction, regime_mismatch, peripheral_event, noise, unknown
Un texte d'analyse de 2-3 phrases qui justifie le verdict avec des chiffres concrets

Le résultat est stocké en base, jamais re-calculé, et affiché dans le scoreboard à la place de l'ancienne phrase générique.

Ce que les autopsies ont dit de nos 5 ratés

Voici les verdicts pour les cinq signaux WTI/XAU ratés de la fenêtre Iran :

Signal	Cause IA	Lecture
`mideast_conflict_oil` (WTI ↑7.5%)	Mauvaise direction	Marché parti à -8.4% au lieu du +7.5% prédit
`oil_chokepoint` (WTI ↑10%)	Mauvaise direction	Idem, -8.4% vs +10%
`nlp_signal_wti` (WTI ↑6%)	Mauvaise direction	-8.2% vs +6%
`sanctions_announced` (WTI ↑2.5%)	Mauvaise direction	-7.5% vs +2.5%
`nuclear_tensions` (XAU ↑4%)	Mauvaise direction	XAU à -1% au lieu du +4% prédit

Cinq fois la même cause sur des règles indépendantes : ce n'est plus du bruit, c'est un pattern. Et la lecture qui en émerge est dérangeante : la prime de risque pétrole avait déjà été intégrée par le marché bien avant que nos signaux ne se déclenchent. Les news qui ont activé nos règles étaient elles-mêmes des news de "résolution" ou de "désescalade" — pas des news d'aggravation.

Autre verdict récurrent dans les autopsies des autres assets de la fenêtre : magnitude_too_ambitious. Sur cinq signaux dont la direction était correcte (XAU ↑, blé ↑, cuivre ↑), nos prédictions étaient systématiquement entre +4% et +7.5%, alors que les mouvements réels ont été de +0.8% à +2.2%. Vraies en signe, fausses en amplitude.

Trois réponses concrètes déployées

L'autopsie n'a de valeur que si elle débouche sur du code. Voici ce qu'on a poussé en production le jour même :

1. Filtre régime de volatilité

Nos signaux géopolitiques étaient évalués indépendamment du régime de marché. Or une règle "Moyen-Orient → pétrole en hausse" a un hit rate très différent quand le VIX est à 12 (complacency) vs à 30 (stress généralisé). Désormais, chaque signal voit sa confiance et sa magnitude ajustées par un multiplicateur lié au VIX :

VIX < 15 → confiance ×0.85, magnitude ×0.90 (les news sont ignorées par un marché en transe)
VIX 25-35 → confiance ×0.95, magnitude ×1.05 (régime plus réceptif)
VIX > 35 → confiance ×0.90, magnitude ×1.15 (mouvements amplifiés mais erratiques)

2. Détection "déjà pricé"

Si quatre règles indépendantes pointent toutes le même actif dans la même direction sur 48h, c'est probablement parce que le thème est en train de se résoudre publiquement, pas qu'il s'aggrave. Désormais, le 2e signal sur le même actif dans une fenêtre de 48h voit sa magnitude rabaissée à 85%. Le 3e à 70%. Le 4e à 55%.

Ce n'est pas censurer le signal — c'est reconnaître que sa marge d'information décroît à chaque répétition.

3. Cap volatilité historique

Une prédiction "WTI +10% sur 2 jours" est dans la queue de distribution des retours réels du WTI sur 2 jours. Elle se vérifie peut-être 1 fois sur 100. Désormais, chaque magnitude prédite est plafonnée à 1.5σ × √horizon mesuré sur 14 jours réels de prix. Pour le WTI sur 2j en avril 2026, ça donne un plafond autour de 4.5%. Tout signal au-dessus est rabaissé.

C'est moins ambitieux comme communication. Mais c'est nettement plus défendable comme statistique.

Ce qu'on a appris

Trois prises de conscience qu'on n'aurait pas eues sans le système d'autopsie automatique :

Les règles "événement géopolitique → mouvement de prix" sont fragilisées par la rapidité de pricing du marché. À l'ère des news en continu et du trading algo, le délai entre un événement et son intégration dans le prix est passé de plusieurs jours à quelques minutes. Nos règles, conçues sur un horizon "réaction sous quelques jours", sont structurellement en retard.

La concordance de plusieurs règles n'est pas une confirmation, c'est un signal d'alarme. Quand quatre règles différentes vont dans le même sens en 48h, ce n'est pas que la conviction est plus forte ; c'est que le marché est en train d'épuiser la nouvelle.

La transparence radicale a un coût d'image, mais un bénéfice méthodologique. Publier qu'on a raté quatre WTI d'affilée n'est pas confortable. Mais sans cette transparence, on n'aurait pas vu le pattern, on n'aurait pas reconfiguré les règles, et on referait l'erreur dans deux mois sur la prochaine crise.

Voir les autopsies en direct

Toutes les autopsies générées par Mistral sont visibles dans le scoreboard public, section "Autopsie des erreurs". Chaque carte est dépliable et affiche le verdict IA avec son badge coloré (mauvaise direction, magnitude trop ambitieuse, déjà pricé, régime contraire, etc.) et l'analyse contextuelle.

C'est un outil pédagogique pour vous, et un outil de discipline pour nous. Quand on lit "magnitude trop grande" cinq fois sur dix signaux d'affilée, on n'a plus le luxe d'ignorer le diagnostic.

La prochaine itération sera quantitative : à mesure que la base d'autopsies s'enrichit, on pourra croiser cause × règle × régime × actif et identifier précisément quelles règles méritent d'être désactivées, recalibrées ou refondées. Mais ça commence par publier les erreurs au moment où elles surviennent — pas après les avoir oubliées.

GeoPulse

Suivez les marchés en temps réel

GeoPulse corrèle événements géopolitiques et marchés financiers avec une analyse IA de chaque événement.

Créer un compte gratuit