DealMonitor Logo
Back to Blog
Regime Change: Wie CatBoost unser bisheriges Preiserkennungs-Modell abgelöst hat

Regime Change: Wie CatBoost unser bisheriges Preiserkennungs-Modell abgelöst hat

·by DealMonitor Team·5 Min. Lesezeit
machine-learningaitechupdate

Ein neuer Champion

Am vergangenen Wochenende ist etwas passiert, das wir intern als „Regime Change“ bezeichnen: Unser bisheriges Preiserkennungs-Modell auf Basis von LightGBM wurde von einem CatBoost-Modell abgelöst. Das klingt technisch — und ist es auch. Aber die Auswirkungen sind direkt spürbar: Die Preiserkennung auf euren Produktseiten wird genauer.

Aus diesem Anlass möchten wir euch einen kleinen Einblick geben, wie unsere KI-basierte Preiserkennung funktioniert, wie wir unsere Modelle trainieren und warum CatBoost jetzt die Nase vorn hat.

Das Problem: Eine Zahl unter vielen

Eine typische Produktseite enthält dutzende Zahlen: Artikelnummern, Bewertungen, Versandkosten, Mengenangaben, Streichpreise, Variantenpreise. Der eigentliche Kaufpreis ist nur eine davon. Unser Modell muss aus all diesen Kandidaten den richtigen herausfiltern — auf jeder beliebigen Website, unabhängig von Layout, Sprache oder Shop-System.

Wie unsere Pipeline funktioniert

Die Preiserkennung läuft in mehreren Stufen ab:

Stufe 1: Kandidaten sammeln

Wenn ihr eine URL zum Tracking hinzufügt, analysiert unser System die komplette Seitenstruktur. Dabei werden alle Elemente identifiziert, die einen Preis enthalten könnten. Wir nutzen mehrere Quellen parallel:

  • Strukturierte Daten: JSON-LD und Schema.org-Markup, das viele Shops für Suchmaschinen hinterlegen.
  • DOM-Analyse: Jedes Textelement wird auf preisähnliche Muster untersucht — Zahlen mit Währungssymbolen, Dezimaltrennern etc.
  • JavaScript-Extraktion: Bei Shops mit konfigurierbaren Produkten (z.B. verschiedene Größen) extrahieren wir Variantenpreise direkt aus dem eingebetteten JavaScript.

Stufe 2: Merkmale extrahieren

Für jeden Preis-Kandidaten berechnen wir rund zwei Dutzend Merkmale, die dem Modell helfen, den echten Preis vom Rauschen zu unterscheiden:

  • Kontext im HTML: Enthält das umgebende Element Wörter wie „Preis“, „Angebot“ oder „Aktuell“? Ist der Text visuell hervorgehoben (fett, große Schrift)?
  • Position auf der Seite: Wie tief ist das Element im DOM verschachtelt? Wo steht es relativ zu anderen Kandidaten?
  • Statistische Einordnung: Wie verhält sich der Wert im Vergleich zu den anderen Zahlen auf der Seite? Ist er ein Ausreißer oder liegt er im typischen Preisbereich?
  • Shop-spezifische Signale: Wie gut erkennt das Modell Preise auf dieser Domain historisch? Manche Shops sind schwieriger als andere.

Stufe 3: Vorhersage

Alle Kandidaten mit ihren Merkmalen werden an unseren ML-Service geschickt. Dort bewertet das Modell jeden einzelnen Kandidaten und vergibt eine Wahrscheinlichkeit: „Wie sicher bin ich, dass dies der echte Produktpreis ist?“ Der Kandidat mit dem höchsten Score gewinnt.

Training: Wie das Modell lernt

Unser Modell lernt aus echten Nutzerdaten. Jedes Mal, wenn ihr einen Preis bestätigt oder korrigiert, fließt das als Trainingssignal zurück. Die Zuordnung „diese Zahl auf dieser Seite ist der richtige Preis“ wird zum gelabelten Beispiel für das nächste Training.

Die Herausforderung: Von allen Kandidaten auf einer Seite ist typischerweise nur einer der richtige Preis — das Verhältnis liegt bei ungefähr 1:50. Dieses Ungleichgewicht muss beim Training berücksichtigt werden, damit das Modell nicht einfach lernt, alles als „kein Preis“ zu klassifizieren.

Wir trainieren regelmäßig mehrere Modelltypen parallel und vergleichen ihre Leistung auf einem separaten Testdatensatz. Der Testdatensatz ist strikt nach Seiten aufgeteilt — das Modell wird nie auf Seiten getestet, die es im Training gesehen hat.

Warum CatBoost gewonnen hat

In unserem letzten Modellvergleich hat CatBoost das bisherige LightGBM-Modell (das seit Januar im Einsatz war) in den entscheidenden Metriken übertroffen:

  • Top-1-Genauigkeit von 80%: Bei 4 von 5 Produktseiten erkennt das Modell den richtigen Preis auf Anhieb.
  • Top-3-Genauigkeit von 84%: Wenn wir die drei besten Kandidaten betrachten, ist der richtige Preis fast immer dabei.

Was macht CatBoost besser? Zwei Faktoren stechen hervor:

Besserer Umgang mit dem Klassenungleichgewicht. CatBoost hat eine eingebaute Strategie zur automatischen Gewichtung der Klassen, die in der Praxis robuster funktioniert als die manuelle Kalibrierung bei LightGBM.

Intelligentere Verarbeitung kategorischer Merkmale. Features wie der HTML-Tag-Typ oder die Quelle eines Kandidaten (JSON-LD vs. DOM-Text vs. JavaScript) werden von CatBoost nativ verarbeitet, ohne dass wir sie manuell in Zahlen umwandeln müssen. Das reduziert Informationsverlust.

Automatisches Retraining

Unsere Pipeline trainiert Modelle nicht nur einmal, sondern kontinuierlich. Täglich wird das aktuell beste Modell mit neuen Daten nachtrainiert. Einmal pro Woche läuft ein vollständiger Vergleich aller Modellkonfigurationen — so haben wir den „Regime Change“ zu CatBoost entdeckt.

Der Detector-Service, der die Preiserkennung in Echtzeit durchführt, lädt neue Modelle automatisch. Von der Erkennung eines besseren Modells bis zum Einsatz in der Produktion vergehen nur wenige Minuten.

Was das für euch bedeutet

Kurz gesagt: bessere Preiserkennung, weniger manuelle Korrekturen nötig. Besonders bei Shops mit komplexen Seitenlayouts, mehreren Preisvarianten oder ungewöhnlichen Darstellungen solltet ihr eine Verbesserung merken.

Wenn das Modell sich mal unsicher ist, seht ihr das an der Konfidenzanzeige bei der Tracker-Erstellung. In solchen Fällen könnt ihr den Preis einfach manuell bestätigen — und helft damit gleichzeitig dem Modell, beim nächsten Training dazuzulernen.

Probiert es aus und erstellt euren nächsten Tracker — CatBoost übernimmt ab jetzt die Preiserkennung.

Ready to Never Miss a Deal Again?

Start tracking prices in seconds. No credit card required.

Start for Free

Related Posts

Regime Change: Wie CatBoost unser bisheriges Preiserkennungs-Modell abgelöst hat