Changement de régime : comment CatBoost a détrôné notre précédent modèle de détection des prix

Un nouveau champion

Ce week-end, quelque chose s’est produit que nous appelons en interne un « Changement de Régime » : notre modèle de détection des prix basé sur LightGBM a été remplacé par un modèle CatBoost. Cela semble technique — et ça l’est. Mais les effets sont directement perceptibles : la détection des prix sur vos pages produits vient de gagner en précision.

Pour marquer l’occasion, nous voulons vous donner un aperçu des coulisses : comment fonctionne notre détection des prix alimentée par l’IA, comment nous entraînons nos modèles et pourquoi CatBoost sort désormais vainqueur.

Le problème : un nombre parmi tant d’autres

Une page produit typique contient des dizaines de nombres : identifiants d’articles, évaluations, frais de livraison, quantités, prix barrés, prix de variantes. Le prix d’achat réel n’est que l’un d’entre eux. Notre modèle doit choisir le bon parmi tous ces candidats — sur n’importe quel site web, quel que soit la mise en page, la langue ou le système de boutique.

Comment fonctionne notre pipeline

La détection des prix se déroule en plusieurs étapes :

Étape 1 : Collecte des candidats

Lorsque vous ajoutez une URL à suivre, notre système analyse la structure complète de la page. Chaque élément susceptible de contenir un prix est identifié. Nous utilisons plusieurs sources en parallèle :

Données structurées : Le balisage JSON-LD et Schema.org que de nombreuses boutiques fournissent pour les moteurs de recherche.
Analyse du DOM : Chaque élément textuel est examiné à la recherche de motifs ressemblant à des prix — nombres avec symboles monétaires, séparateurs décimaux, etc.
Extraction JavaScript : Pour les boutiques avec des produits configurables (par ex. différentes tailles), nous extrayons les prix des variantes directement depuis le JavaScript intégré.

Étape 2 : Extraction des caractéristiques

Pour chaque candidat prix, nous calculons environ deux douzaines de caractéristiques qui aident le modèle à distinguer le vrai prix du bruit :

Contexte HTML : L’élément environnant contient-il des mots comme « prix », « offre » ou « actuel » ? Le texte est-il visuellement mis en valeur (gras, grande police) ?
Position dans la page : À quelle profondeur l’élément est-il imbriqué dans le DOM ? Où se situe-t-il par rapport aux autres candidats ?
Contexte statistique : Comment la valeur se compare-t-elle aux autres nombres de la page ? Est-ce une valeur aberrante ou se situe-t-elle dans une fourchette de prix typique ?
Signaux spécifiques à la boutique : Avec quelle précision le modèle détecte-t-il historiquement les prix sur ce domaine ? Certaines boutiques sont plus difficiles que d’autres.

Étape 3 : Prédiction

Tous les candidats avec leurs caractéristiques sont envoyés à notre service de ML. Le modèle attribue à chaque candidat une probabilité : « Quelle est ma confiance que ceci est le vrai prix du produit ? » Le candidat avec le score le plus élevé l’emporte.

Entraînement : comment le modèle apprend

Notre modèle apprend à partir de données réelles d’utilisateurs. Chaque fois que vous confirmez ou corrigez un prix, ce retour est réinjecté comme signal d’entraînement. La correspondance « ce nombre sur cette page est le prix correct » devient un exemple étiqueté pour la prochaine session d’entraînement.

Le défi : parmi tous les candidats d’une page, un seul est généralement le prix correct — le ratio est d’environ 1:50. Ce déséquilibre doit être pris en compte lors de l’entraînement, sinon le modèle apprend simplement à tout classifier comme « pas un prix ».

Nous entraînons régulièrement plusieurs types de modèles en parallèle et comparons leurs performances sur un jeu de test séparé. Le jeu de test est strictement découpé par page — le modèle n’est jamais testé sur des pages qu’il a vues pendant l’entraînement.

Pourquoi CatBoost a gagné

Dans notre dernière comparaison de modèles, CatBoost a surpassé le modèle précédent LightGBM (en production depuis janvier) sur les métriques clés :

Précision Top-1 de 80 % : Pour 4 pages produits sur 5, le modèle identifie le prix correct du premier coup.
Précision Top-3 de 84 % : En considérant les trois meilleurs candidats, le prix correct en fait presque toujours partie.

Qu’est-ce qui rend CatBoost meilleur ? Deux facteurs se démarquent :

Meilleure gestion du déséquilibre des classes. CatBoost dispose d’une stratégie intégrée pour l’équilibrage automatique des poids de classe qui fonctionne de manière plus robuste en pratique que le calibrage manuel nécessaire pour LightGBM.

Traitement plus intelligent des caractéristiques catégorielles. Les caractéristiques comme le type de balise HTML ou la source du candidat (JSON-LD vs. texte DOM vs. JavaScript) sont traitées nativement par CatBoost, sans que nous ayons à les encoder manuellement en nombres. Cela réduit la perte d’information.

Réentraînement automatique

Notre pipeline n’entraîne pas les modèles une seule fois — il le fait en continu. Chaque jour, le meilleur modèle actuel est réentraîné avec de nouvelles données. Une fois par semaine, une comparaison complète de toutes les configurations de modèles est exécutée — c’est ainsi que nous avons découvert le « Changement de Régime » vers CatBoost.

Le service de détection qui effectue la détection des prix en temps réel charge automatiquement les nouveaux modèles. De la découverte d’un meilleur modèle à son déploiement en production, il ne faut que quelques minutes.

Ce que cela signifie pour vous

En résumé : une meilleure détection des prix, moins de corrections manuelles nécessaires. Vous devriez particulièrement remarquer des améliorations sur les boutiques avec des mises en page complexes, de multiples variantes de prix ou des présentations inhabituelles.

Lorsque le modèle est incertain, vous le verrez dans l’indicateur de confiance lors de la création du tracker. Dans ces cas, vous pouvez simplement confirmer le prix manuellement — et aider le modèle à apprendre pour sa prochaine session d’entraînement en même temps.

Essayez et créez votre prochain tracker — CatBoost gère désormais la détection des prix.

Changement de régime : comment CatBoost a détrôné notre précédent modèle de détection des prix

Un nouveau champion

Le problème : un nombre parmi tant d’autres

Comment fonctionne notre pipeline

Étape 1 : Collecte des candidats

Étape 2 : Extraction des caractéristiques

Étape 3 : Prédiction

Entraînement : comment le modèle apprend

Pourquoi CatBoost a gagné

Réentraînement automatique

Ce que cela signifie pour vous

Ready to Never Miss a Deal Again?

Related Posts

We now read every shop's terms of service — and we're failing at exactly the right step

When shops lock us out — why some prices don't refresh

Three small features that make DealMonitor better in everyday use

Smarter Price Alerts and Self-Healing Trackers

Invitez vos amis et débloquez des emplacements de suivi

Importez vos listes de souhaits — Steam et Amazon en un clic

1 an de DealMonitor : de l'idée au traqueur de prix

v0.12: HTTP-First Scraping and the End of Selenium Dependency

The 5 Best Price Comparison Tools in 2026 — Compared

Amazon Price History: How to Track Prices the Right Way

v0.11: API Integrations for Etsy, Game Stores, and Multi-Price Tracking

Déjà les cadeaux de Noël en tête ? Oui, même en mars c'est malin.

v0.10: Tackling Amazon and AliExpress with APIs

Comment les boutiques en ligne vous manipulent pour acheter — et comment riposter

DealMonitor entre en bêta : toutes les nouveautés

Le guide ultime pour un shopping en ligne intelligent

v0.8: Dark Mode, Error Monitoring, and Our First Blog Posts

v0.7: Web Push Notifications and Dashboard Search

Comment l'IA detecte les prix sur n'importe quel site

v0.6: Telegram Notifications, Tracker Groups, and Sharing

5 facons d'economiser avec les alertes de prix

v0.5: Google OAuth and 9 Languages from Day One

Comment suivre les prix en ligne : le guide complet pour ne plus jamais surpayer

Un nouveau champion

Le problème : un nombre parmi tant d’autres

Comment fonctionne notre pipeline

Étape 1 : Collecte des candidats

Étape 2 : Extraction des caractéristiques

Étape 3 : Prédiction

Entraînement : comment le modèle apprend

Pourquoi CatBoost a gagné

Réentraînement automatique

Ce que cela signifie pour vous

Ready to Never Miss a Deal Again?

Related Posts

We now read every shop's terms of service — and we're failing at exactly the right step

When shops lock us out — why some prices don't refresh

Three small features that make DealMonitor better in everyday use

Smarter Price Alerts and Self-Healing Trackers

Invitez vos amis et débloquez des emplacements de suivi

Importez vos listes de souhaits — Steam et Amazon en un clic

1 an de DealMonitor : de l'idée au traqueur de prix

v0.12: HTTP-First Scraping and the End of Selenium Dependency

The 5 Best Price Comparison Tools in 2026 — Compared

Amazon Price History: How to Track Prices the Right Way

v0.11: API Integrations for Etsy, Game Stores, and Multi-Price Tracking

Déjà les cadeaux de Noël en tête ? Oui, même en mars c'est malin.

v0.10: Tackling Amazon and AliExpress with APIs

Comment les boutiques en ligne vous manipulent pour acheter — et comment riposter

DealMonitor entre en bêta : toutes les nouveautés

Le guide ultime pour un shopping en ligne intelligent

v0.8: Dark Mode, Error Monitoring, and Our First Blog Posts

v0.7: Web Push Notifications and Dashboard Search

Comment l'IA detecte les prix sur n'importe quel site

v0.6: Telegram Notifications, Tracker Groups, and Sharing

5 facons d'economiser avec les alertes de prix

v0.5: Google OAuth and 9 Languages from Day One

Comment suivre les prix en ligne : le guide complet pour ne plus jamais surpayer

Déjà les cadeaux de Noël en tête ? Oui, même en mars c'est malin.