DealMonitor Logo
Back to Blog
تغيير النظام: كيف أطاح CatBoost بنموذج اكتشاف الأسعار السابق لدينا

تغيير النظام: كيف أطاح CatBoost بنموذج اكتشاف الأسعار السابق لدينا

·by DealMonitor Team·5 دقائق للقراءة
machine-learningaitechupdate

بطل جديد

في نهاية الأسبوع الماضي، حدث شيء نسميه داخلياً “تغيير النظام”: تم استبدال نموذج اكتشاف الأسعار القائم على LightGBM بنموذج CatBoost. يبدو هذا تقنياً — وهو كذلك. لكن التأثيرات ملحوظة بشكل مباشر: اكتشاف الأسعار على صفحات منتجاتكم أصبح أكثر دقة.

بمناسبة هذا الحدث، نريد أن نمنحكم نظرة خلف الكواليس على كيفية عمل اكتشاف الأسعار المدعوم بالذكاء الاصطناعي، وكيف ندرب نماذجنا، ولماذا يتصدر CatBoost الآن.

المشكلة: رقم واحد بين كثيرين

تحتوي صفحة منتج نموذجية على عشرات الأرقام: معرفات المنتجات، التقييمات، تكاليف الشحن، الكميات، الأسعار المشطوبة، أسعار المتغيرات. سعر الشراء الفعلي هو واحد فقط منها. يحتاج نموذجنا إلى اختيار الصحيح من بين كل هؤلاء المرشحين — على أي موقع ويب، بغض النظر عن التصميم أو اللغة أو نظام المتجر.

كيف يعمل خط الأنابيب لدينا

يعمل اكتشاف الأسعار على عدة مراحل:

المرحلة 1: جمع المرشحين

عندما تضيف رابط URL للتتبع، يحلل نظامنا بنية الصفحة الكاملة. يتم تحديد كل عنصر قد يحتوي على سعر. نستخدم مصادر متعددة بالتوازي:

  • البيانات المهيكلة: ترميز JSON-LD و Schema.org الذي توفره العديد من المتاجر لمحركات البحث.
  • تحليل DOM: يتم فحص كل عنصر نصي بحثاً عن أنماط تشبه الأسعار — أرقام بها رموز عملات وفواصل عشرية وما إلى ذلك.
  • استخراج JavaScript: للمتاجر ذات المنتجات القابلة للتكوين (مثل الأحجام المختلفة)، نستخرج أسعار المتغيرات مباشرة من JavaScript المضمن.

المرحلة 2: استخراج الميزات

لكل مرشح سعر، نحسب حوالي عشرين ميزة تساعد النموذج على تمييز السعر الحقيقي عن الضوضاء:

  • سياق HTML: هل يحتوي العنصر المحيط على كلمات مثل “سعر” أو “عرض” أو “حالي”؟ هل النص مؤكد بصرياً (خط عريض، حجم كبير)؟
  • موقع الصفحة: ما مدى عمق تداخل العنصر في DOM؟ أين يقع بالنسبة للمرشحين الآخرين؟
  • السياق الإحصائي: كيف تقارن القيمة بالأرقام الأخرى في الصفحة؟ هل هي قيمة شاذة أم ضمن نطاق أسعار نموذجي؟
  • إشارات خاصة بالمتجر: ما مدى جودة اكتشاف النموذج تاريخياً للأسعار على هذا النطاق؟ بعض المتاجر أصعب من غيرها.

المرحلة 3: التنبؤ

يتم إرسال جميع المرشحين مع ميزاتهم إلى خدمة ML الخاصة بنا. يمنح النموذج كل مرشح احتمالاً: “ما مدى ثقتي بأن هذا هو سعر المنتج الفعلي؟” المرشح ذو أعلى درجة يفوز.

التدريب: كيف يتعلم النموذج

يتعلم نموذجنا من بيانات المستخدمين الحقيقية. في كل مرة تؤكد أو تصحح سعراً، تعود تلك الملاحظات كإشارة تدريب. التطابق “هذا الرقم في هذه الصفحة هو السعر الصحيح” يصبح مثالاً مصنفاً لجولة التدريب التالية.

التحدي: من بين جميع المرشحين في صفحة، عادة واحد فقط هو السعر الصحيح — النسبة تقريباً 1:50. يجب مراعاة هذا الاختلال أثناء التدريب، وإلا يتعلم النموذج ببساطة تصنيف كل شيء على أنه “ليس سعراً”.

ندرب بانتظام أنواعاً متعددة من النماذج بالتوازي ونقارن أداءها على مجموعة اختبار محتجزة. مجموعة الاختبار مقسمة بصرامة حسب الصفحة — لا يتم اختبار النموذج أبداً على صفحات شاهدها أثناء التدريب.

لماذا فاز CatBoost

في آخر مقارنة للنماذج، تفوق CatBoost على نموذج LightGBM السابق (الذي كان في الإنتاج منذ يناير) في المقاييس الرئيسية:

  • دقة Top-1 بنسبة 80%: في 4 من كل 5 صفحات منتجات، يحدد النموذج السعر الصحيح من المحاولة الأولى.
  • دقة Top-3 بنسبة 84%: عند النظر في أفضل ثلاثة مرشحين، يكون السعر الصحيح دائماً تقريباً من بينهم.

ما الذي يجعل CatBoost أفضل؟ يبرز عاملان:

معالجة أفضل لاختلال التوازن بين الفئات. يمتلك CatBoost استراتيجية مدمجة لموازنة أوزان الفئات تلقائياً تعمل بشكل أكثر متانة عملياً من المعايرة اليدوية المطلوبة لـ LightGBM.

معالجة أذكى للميزات الفئوية. ميزات مثل نوع وسم HTML أو مصدر المرشح (JSON-LD مقابل نص DOM مقابل JavaScript) تتم معالجتها أصلياً بواسطة CatBoost، دون الحاجة لترميزها يدوياً كأرقام. هذا يقلل من فقدان المعلومات.

إعادة التدريب التلقائي

لا يدرب خط الأنابيب لدينا النماذج مرة واحدة فقط — بل يفعل ذلك باستمرار. كل يوم، يُعاد تدريب أفضل نموذج حالي ببيانات جديدة. مرة في الأسبوع، تُجرى مقارنة كاملة لجميع تكوينات النماذج — هكذا اكتشفنا “تغيير النظام” إلى CatBoost.

خدمة الكاشف التي تجري اكتشاف الأسعار في الوقت الفعلي تحمل النماذج الجديدة تلقائياً. من اكتشاف نموذج أفضل إلى نشره في الإنتاج لا يستغرق سوى دقائق.

ماذا يعني هذا لك

باختصار: اكتشاف أسعار أفضل، تصحيحات يدوية أقل. يجب أن تلاحظ تحسينات خاصة في المتاجر ذات تخطيطات الصفحات المعقدة أو متغيرات الأسعار المتعددة أو العروض غير المعتادة.

عندما يكون النموذج غير متأكد، سترى ذلك في مؤشر الثقة أثناء إنشاء المتتبع. في تلك الحالات، يمكنك ببساطة تأكيد السعر يدوياً — ومساعدة النموذج على التعلم لجولة التدريب التالية في نفس الوقت.

جربه وأنشئ متتبعك التالي — CatBoost يتولى الآن اكتشاف الأسعار.

Ready to Never Miss a Deal Again?

Start tracking prices in seconds. No credit card required.

Start for Free

Related Posts

استورد قوائم أمنياتك — Steam و Amazon بنقرة واحدة

استورد قوائم أمنياتك — Steam و Amazon بنقرة واحدة

4 دقائق للقراءة

عام واحد من DealMonitor: من الفكرة إلى متتبع الأسعار

عام واحد من DealMonitor: من الفكرة إلى متتبع الأسعار

4 دقائق للقراءة

v0.12: HTTP-First Scraping and the End of Selenium Dependency

v0.12: HTTP-First Scraping and the End of Selenium Dependency

5 min read

The 5 Best Price Comparison Tools in 2026 — Compared

The 5 Best Price Comparison Tools in 2026 — Compared

7 min read

Amazon Price History: How to Track Prices the Right Way

Amazon Price History: How to Track Prices the Right Way

6 min read

v0.11: API Integrations for Etsy, Game Stores, and Multi-Price Tracking

v0.11: API Integrations for Etsy, Game Stores, and Multi-Price Tracking

5 min read

هل تفكر في هدايا العيد من الآن؟ نعم، مارس هو الوقت المناسب.

هل تفكر في هدايا العيد من الآن؟ نعم، مارس هو الوقت المناسب.

5 دقائق للقراءة

v0.10: Tackling Amazon and AliExpress with APIs

v0.10: Tackling Amazon and AliExpress with APIs

5 min read

كيف تخدعك المتاجر الإلكترونية لتشتري — وكيف تتصدى لذلك

كيف تخدعك المتاجر الإلكترونية لتشتري — وكيف تتصدى لذلك

8 دقائق قراءة

DealMonitor يدخل مرحلة البيتا: كل ما هو جديد

DealMonitor يدخل مرحلة البيتا: كل ما هو جديد

5 دقائق للقراءة

الدليل الشامل للتسوق الذكي عبر الإنترنت: نصائح واستراتيجيات فعّالة

الدليل الشامل للتسوق الذكي عبر الإنترنت: نصائح واستراتيجيات فعّالة

7 دقائق للقراءة

v0.8: Dark Mode, Error Monitoring, and Our First Blog Posts

v0.8: Dark Mode, Error Monitoring, and Our First Blog Posts

4 min read

v0.7: Web Push Notifications and Dashboard Search

v0.7: Web Push Notifications and Dashboard Search

5 min read

كيف يكتشف الذكاء الاصطناعي الأسعار على أي موقع: التقنية وراء DealMonitor

كيف يكتشف الذكاء الاصطناعي الأسعار على أي موقع: التقنية وراء DealMonitor

6 دقائق للقراءة

v0.6: Telegram Notifications, Tracker Groups, and Sharing

v0.6: Telegram Notifications, Tracker Groups, and Sharing

4 min read

5 طرق لتوفير المال مع تنبيهات الأسعار: استراتيجيات ذكية للمتسوقين

5 طرق لتوفير المال مع تنبيهات الأسعار: استراتيجيات ذكية للمتسوقين

6 دقائق للقراءة

v0.5: Google OAuth and 9 Languages from Day One

v0.5: Google OAuth and 9 Languages from Day One

4 min read

كيفية تتبع الأسعار عبر الإنترنت: دليلك الكامل لمراقبة تغيّرات الأسعار

كيفية تتبع الأسعار عبر الإنترنت: دليلك الكامل لمراقبة تغيّرات الأسعار

5 دقائق للقراءة

تغيير النظام: كيف أطاح CatBoost بنموذج اكتشاف الأسعار السابق لدينا