DealMonitor Logo
Back to Blog
Changement de régime : comment CatBoost a détrôné notre précédent modèle de détection des prix

Changement de régime : comment CatBoost a détrôné notre précédent modèle de détection des prix

·by DealMonitor Team·5 min de lecture
machine-learningaitechupdate

Un nouveau champion

Ce week-end, quelque chose s’est produit que nous appelons en interne un « Changement de Régime » : notre modèle de détection des prix basé sur LightGBM a été remplacé par un modèle CatBoost. Cela semble technique — et ça l’est. Mais les effets sont directement perceptibles : la détection des prix sur vos pages produits vient de gagner en précision.

Pour marquer l’occasion, nous voulons vous donner un aperçu des coulisses : comment fonctionne notre détection des prix alimentée par l’IA, comment nous entraînons nos modèles et pourquoi CatBoost sort désormais vainqueur.

Le problème : un nombre parmi tant d’autres

Une page produit typique contient des dizaines de nombres : identifiants d’articles, évaluations, frais de livraison, quantités, prix barrés, prix de variantes. Le prix d’achat réel n’est que l’un d’entre eux. Notre modèle doit choisir le bon parmi tous ces candidats — sur n’importe quel site web, quel que soit la mise en page, la langue ou le système de boutique.

Comment fonctionne notre pipeline

La détection des prix se déroule en plusieurs étapes :

Étape 1 : Collecte des candidats

Lorsque vous ajoutez une URL à suivre, notre système analyse la structure complète de la page. Chaque élément susceptible de contenir un prix est identifié. Nous utilisons plusieurs sources en parallèle :

  • Données structurées : Le balisage JSON-LD et Schema.org que de nombreuses boutiques fournissent pour les moteurs de recherche.
  • Analyse du DOM : Chaque élément textuel est examiné à la recherche de motifs ressemblant à des prix — nombres avec symboles monétaires, séparateurs décimaux, etc.
  • Extraction JavaScript : Pour les boutiques avec des produits configurables (par ex. différentes tailles), nous extrayons les prix des variantes directement depuis le JavaScript intégré.

Étape 2 : Extraction des caractéristiques

Pour chaque candidat prix, nous calculons environ deux douzaines de caractéristiques qui aident le modèle à distinguer le vrai prix du bruit :

  • Contexte HTML : L’élément environnant contient-il des mots comme « prix », « offre » ou « actuel » ? Le texte est-il visuellement mis en valeur (gras, grande police) ?
  • Position dans la page : À quelle profondeur l’élément est-il imbriqué dans le DOM ? Où se situe-t-il par rapport aux autres candidats ?
  • Contexte statistique : Comment la valeur se compare-t-elle aux autres nombres de la page ? Est-ce une valeur aberrante ou se situe-t-elle dans une fourchette de prix typique ?
  • Signaux spécifiques à la boutique : Avec quelle précision le modèle détecte-t-il historiquement les prix sur ce domaine ? Certaines boutiques sont plus difficiles que d’autres.

Étape 3 : Prédiction

Tous les candidats avec leurs caractéristiques sont envoyés à notre service de ML. Le modèle attribue à chaque candidat une probabilité : « Quelle est ma confiance que ceci est le vrai prix du produit ? » Le candidat avec le score le plus élevé l’emporte.

Entraînement : comment le modèle apprend

Notre modèle apprend à partir de données réelles d’utilisateurs. Chaque fois que vous confirmez ou corrigez un prix, ce retour est réinjecté comme signal d’entraînement. La correspondance « ce nombre sur cette page est le prix correct » devient un exemple étiqueté pour la prochaine session d’entraînement.

Le défi : parmi tous les candidats d’une page, un seul est généralement le prix correct — le ratio est d’environ 1:50. Ce déséquilibre doit être pris en compte lors de l’entraînement, sinon le modèle apprend simplement à tout classifier comme « pas un prix ».

Nous entraînons régulièrement plusieurs types de modèles en parallèle et comparons leurs performances sur un jeu de test séparé. Le jeu de test est strictement découpé par page — le modèle n’est jamais testé sur des pages qu’il a vues pendant l’entraînement.

Pourquoi CatBoost a gagné

Dans notre dernière comparaison de modèles, CatBoost a surpassé le modèle précédent LightGBM (en production depuis janvier) sur les métriques clés :

  • Précision Top-1 de 80 % : Pour 4 pages produits sur 5, le modèle identifie le prix correct du premier coup.
  • Précision Top-3 de 84 % : En considérant les trois meilleurs candidats, le prix correct en fait presque toujours partie.

Qu’est-ce qui rend CatBoost meilleur ? Deux facteurs se démarquent :

Meilleure gestion du déséquilibre des classes. CatBoost dispose d’une stratégie intégrée pour l’équilibrage automatique des poids de classe qui fonctionne de manière plus robuste en pratique que le calibrage manuel nécessaire pour LightGBM.

Traitement plus intelligent des caractéristiques catégorielles. Les caractéristiques comme le type de balise HTML ou la source du candidat (JSON-LD vs. texte DOM vs. JavaScript) sont traitées nativement par CatBoost, sans que nous ayons à les encoder manuellement en nombres. Cela réduit la perte d’information.

Réentraînement automatique

Notre pipeline n’entraîne pas les modèles une seule fois — il le fait en continu. Chaque jour, le meilleur modèle actuel est réentraîné avec de nouvelles données. Une fois par semaine, une comparaison complète de toutes les configurations de modèles est exécutée — c’est ainsi que nous avons découvert le « Changement de Régime » vers CatBoost.

Le service de détection qui effectue la détection des prix en temps réel charge automatiquement les nouveaux modèles. De la découverte d’un meilleur modèle à son déploiement en production, il ne faut que quelques minutes.

Ce que cela signifie pour vous

En résumé : une meilleure détection des prix, moins de corrections manuelles nécessaires. Vous devriez particulièrement remarquer des améliorations sur les boutiques avec des mises en page complexes, de multiples variantes de prix ou des présentations inhabituelles.

Lorsque le modèle est incertain, vous le verrez dans l’indicateur de confiance lors de la création du tracker. Dans ces cas, vous pouvez simplement confirmer le prix manuellement — et aider le modèle à apprendre pour sa prochaine session d’entraînement en même temps.

Essayez et créez votre prochain tracker — CatBoost gère désormais la détection des prix.

Ready to Never Miss a Deal Again?

Start tracking prices in seconds. No credit card required.

Start for Free

Related Posts

Changement de régime : comment CatBoost a détrôné notre précédent modèle de détection des prix