Das Problem: Jeder Online-Shop ist anders
Wer Preise im Internet automatisch erfassen will, steht vor einer gewaltigen Herausforderung. Es gibt Millionen von Online-Shops weltweit, und jeder davon strukturiert seine Produktseiten anders. Der Preis steht mal in einem großen roten Banner, mal dezent neben dem Warenkorb-Button, mal in einer Tabelle mit verschiedenen Varianten. Manche Shops laden den Preis erst nach, andere zeigen ihn erst nach Auswahl einer Größe oder Farbe an.
Klassische Preistracker lösen dieses Problem mit sogenannten Scraping-Regeln: Für jeden Shop wird manuell festgelegt, wo genau der Preis auf der Seite zu finden ist. Das funktioniert – aber nur solange der Shop sein Layout nicht ändert. Und es skaliert nicht: Für tausende Shops müssten tausende individuelle Regeln gepflegt werden.
Der neue Ansatz: Maschinelles Lernen
DealMonitor geht einen grundlegend anderen Weg. Statt für jeden Shop eigene Regeln zu definieren, setzt die Software auf einen Machine-Learning-Algorithmus, der gelernt hat, Preise auf beliebigen Webseiten zu erkennen – unabhängig vom Layout, Design oder der verwendeten Technologie.
Wie funktioniert das konkret?
Der Prozess lässt sich in drei Phasen unterteilen:
Phase 1: Merkmale extrahieren
Wenn du eine Produktseite zum Tracking hinzufügst, analysiert das System die gesamte HTML-Struktur der Seite. Dabei werden für jedes Element auf der Seite dutzende Merkmale erfasst, darunter:
- Textinhalt: Enthält das Element eine Zahl mit Währungssymbol? Wie ist das Format?
- Position auf der Seite: Wo befindet sich das Element relativ zum Gesamtlayout?
- Visuelle Eigenschaften: Schriftgröße, Farbe, Hervorhebung – Preise werden typischerweise prominent dargestellt.
- HTML-Kontext: Welche Elemente umgeben den Kandidaten? Gibt es Hinweise wie Begriffe, die auf einen Preis hindeuten?
- Semantische Marker: Strukturierte Daten, Microdata oder Schema.org-Annotationen, die auf Preisinformationen hinweisen.
Phase 2: Kandidaten bewerten
Auf einer typischen Produktseite gibt es zahlreiche Zahlen: Artikelnummern, Bewertungen, Versandkosten, Mengenangaben und natürlich den eigentlichen Produktpreis. Das ML-Modell bewertet jeden Kandidaten anhand der extrahierten Merkmale und berechnet eine Wahrscheinlichkeit, mit der es sich um den tatsächlichen Produktpreis handelt.
Das Modell wurde mit tausenden realen Produktseiten aus hunderten verschiedenen Online-Shops trainiert. Es kennt die typischen Muster, die einen Produktpreis von anderen Zahlen auf der Seite unterscheiden – auch auf Seiten, die es noch nie zuvor gesehen hat.
Phase 3: Preis bestätigen
Der Kandidat mit der höchsten Bewertung wird als Produktpreis ausgewählt. Zusätzlich extrahiert das System die Währung und prüft die Plausibilität des Ergebnisses. Bei späteren Preisprüfungen wird das Ergebnis mit dem zuvor erkannten Preis abgeglichen, um Ausreißer und Fehlerkennungen zu minimieren.
Warum nicht einfach GPT oder ein anderes Sprachmodell?
Eine naheliegende Frage: Warum nutzt DealMonitor kein großes Sprachmodell wie GPT-4 oder Claude, um den Preis direkt aus dem HTML zu lesen? Die Antwort ist pragmatisch: Produktseiten im Internet sind riesig. Eine typische Shopseite enthält mehrere hundert Kilobyte HTML-Code. Große Sprachmodelle haben Kontextgrenzen und würden nur einen Bruchteil der Seite verarbeiten können.
Außerdem sind spezialisierte ML-Modelle für diese konkrete Aufgabe schneller und zuverlässiger. Sie wurden explizit dafür trainiert, Preise zu erkennen – nicht dafür, beliebige Texte zu verstehen. Das Ergebnis: höhere Genauigkeit bei einem Bruchteil der Rechenkosten.
Die Vorteile gegenüber klassischem Scraping
Der ML-basierte Ansatz bietet entscheidende Vorteile gegenüber regelbasiertem Scraping:
- Universelle Kompatibilität: Das System funktioniert auf jeder Website, nicht nur auf vordefinierten Shops. Egal ob großer Marktplatz oder kleiner Nischenshop – der Preis wird erkannt.
- Robustheit bei Layout-Änderungen: Wenn ein Shop sein Design ändert, brechen regelbasierte Scraper zusammen. Das ML-Modell erkennt den Preis trotzdem, weil es sich an den Merkmalen des Elements orientiert, nicht an seiner exakten Position im Code.
- Kein Wartungsaufwand pro Shop: Es müssen keine individuellen Scraping-Regeln erstellt oder aktualisiert werden. Das System funktioniert sofort – auch bei Shops, die es zum ersten Mal sieht.
- Automatische Währungserkennung: Neben dem Preis erkennt das System auch die Währung, was bei internationalen Shops besonders nützlich ist.
Herausforderungen und Grenzen
So leistungsfähig der ML-Ansatz ist, er hat auch Grenzen. Manche Situationen sind auch für das Modell schwierig:
Dynamisch geladene Preise: Einige Shops laden den Preis erst per JavaScript nach. In solchen Fällen reicht die statische HTML-Analyse nicht aus. DealMonitor setzt hier zusätzlich einen Headless-Browser ein, der die Seite vollständig rendert, bevor die Analyse beginnt.
Variantenpreise: Wenn ein Produkt je nach Konfiguration unterschiedlich kostet, kann es vorkommen, dass der angezeigte Startpreis nicht dem tatsächlichen Kaufpreis entspricht. Das System erfasst in der Regel den prominent dargestellten Preis.
Extrem ungewöhnliche Layouts: Bei wenigen Seiten mit sehr ungewöhnlicher Gestaltung kann die Erkennung unsicher werden. Die Konfidenzwerte helfen, solche Fälle zu identifizieren.
Ein Blick hinter die Kulissen
Die technische Architektur hinter der Preiserkennung besteht aus mehreren Komponenten. Der eigentliche ML-Dienst läuft als eigenständiger Service, der über eine HTTP-Schnittstelle angesprochen wird. So bleibt die Architektur modular und der Erkennungsdienst kann unabhängig skaliert und aktualisiert werden.
Der Scraping-Prozess selbst ist so gestaltet, dass Websites nicht überlastet werden. Pro Shop gilt eine konfigurierbare Abkühlzeit zwischen Anfragen, und die Anzahl paralleler Abfragen ist begrenzt. Das sorgt für ein respektvolles Verhalten gegenüber den Servern der Online-Shops.
Fazit: KI macht Preistracking universell
Die Kombination aus maschinellem Lernen und intelligenter Scraping-Architektur ermöglicht etwas, das vor wenigen Jahren noch undenkbar war: zuverlässiges, automatisches Preistracking auf praktisch jeder Website im Internet. Keine manuellen Regeln, kein Shop-spezifischer Code – einfach den Link eingeben und der Rest passiert automatisch.
Möchtest du es selbst ausprobieren? Erstelle ein kostenloses Konto und lege deinen ersten Preisalarm an. Und wenn du wissen möchtest, wie du Preisalarme optimal einsetzt, lies unseren Artikel über 5 Wege, mit Preisalarmen Geld zu sparen.
