بطل جديد
في نهاية الأسبوع الماضي، حدث شيء نسميه داخلياً “تغيير النظام”: تم استبدال نموذج اكتشاف الأسعار القائم على LightGBM بنموذج CatBoost. يبدو هذا تقنياً — وهو كذلك. لكن التأثيرات ملحوظة بشكل مباشر: اكتشاف الأسعار على صفحات منتجاتكم أصبح أكثر دقة.
بمناسبة هذا الحدث، نريد أن نمنحكم نظرة خلف الكواليس على كيفية عمل اكتشاف الأسعار المدعوم بالذكاء الاصطناعي، وكيف ندرب نماذجنا، ولماذا يتصدر CatBoost الآن.
المشكلة: رقم واحد بين كثيرين
تحتوي صفحة منتج نموذجية على عشرات الأرقام: معرفات المنتجات، التقييمات، تكاليف الشحن، الكميات، الأسعار المشطوبة، أسعار المتغيرات. سعر الشراء الفعلي هو واحد فقط منها. يحتاج نموذجنا إلى اختيار الصحيح من بين كل هؤلاء المرشحين — على أي موقع ويب، بغض النظر عن التصميم أو اللغة أو نظام المتجر.
كيف يعمل خط الأنابيب لدينا
يعمل اكتشاف الأسعار على عدة مراحل:
المرحلة 1: جمع المرشحين
عندما تضيف رابط URL للتتبع، يحلل نظامنا بنية الصفحة الكاملة. يتم تحديد كل عنصر قد يحتوي على سعر. نستخدم مصادر متعددة بالتوازي:
- البيانات المهيكلة: ترميز JSON-LD و Schema.org الذي توفره العديد من المتاجر لمحركات البحث.
- تحليل DOM: يتم فحص كل عنصر نصي بحثاً عن أنماط تشبه الأسعار — أرقام بها رموز عملات وفواصل عشرية وما إلى ذلك.
- استخراج JavaScript: للمتاجر ذات المنتجات القابلة للتكوين (مثل الأحجام المختلفة)، نستخرج أسعار المتغيرات مباشرة من JavaScript المضمن.
المرحلة 2: استخراج الميزات
لكل مرشح سعر، نحسب حوالي عشرين ميزة تساعد النموذج على تمييز السعر الحقيقي عن الضوضاء:
- سياق HTML: هل يحتوي العنصر المحيط على كلمات مثل “سعر” أو “عرض” أو “حالي”؟ هل النص مؤكد بصرياً (خط عريض، حجم كبير)؟
- موقع الصفحة: ما مدى عمق تداخل العنصر في DOM؟ أين يقع بالنسبة للمرشحين الآخرين؟
- السياق الإحصائي: كيف تقارن القيمة بالأرقام الأخرى في الصفحة؟ هل هي قيمة شاذة أم ضمن نطاق أسعار نموذجي؟
- إشارات خاصة بالمتجر: ما مدى جودة اكتشاف النموذج تاريخياً للأسعار على هذا النطاق؟ بعض المتاجر أصعب من غيرها.
المرحلة 3: التنبؤ
يتم إرسال جميع المرشحين مع ميزاتهم إلى خدمة ML الخاصة بنا. يمنح النموذج كل مرشح احتمالاً: “ما مدى ثقتي بأن هذا هو سعر المنتج الفعلي؟” المرشح ذو أعلى درجة يفوز.
التدريب: كيف يتعلم النموذج
يتعلم نموذجنا من بيانات المستخدمين الحقيقية. في كل مرة تؤكد أو تصحح سعراً، تعود تلك الملاحظات كإشارة تدريب. التطابق “هذا الرقم في هذه الصفحة هو السعر الصحيح” يصبح مثالاً مصنفاً لجولة التدريب التالية.
التحدي: من بين جميع المرشحين في صفحة، عادة واحد فقط هو السعر الصحيح — النسبة تقريباً 1:50. يجب مراعاة هذا الاختلال أثناء التدريب، وإلا يتعلم النموذج ببساطة تصنيف كل شيء على أنه “ليس سعراً”.
ندرب بانتظام أنواعاً متعددة من النماذج بالتوازي ونقارن أداءها على مجموعة اختبار محتجزة. مجموعة الاختبار مقسمة بصرامة حسب الصفحة — لا يتم اختبار النموذج أبداً على صفحات شاهدها أثناء التدريب.
لماذا فاز CatBoost
في آخر مقارنة للنماذج، تفوق CatBoost على نموذج LightGBM السابق (الذي كان في الإنتاج منذ يناير) في المقاييس الرئيسية:
- دقة Top-1 بنسبة 80%: في 4 من كل 5 صفحات منتجات، يحدد النموذج السعر الصحيح من المحاولة الأولى.
- دقة Top-3 بنسبة 84%: عند النظر في أفضل ثلاثة مرشحين، يكون السعر الصحيح دائماً تقريباً من بينهم.
ما الذي يجعل CatBoost أفضل؟ يبرز عاملان:
معالجة أفضل لاختلال التوازن بين الفئات. يمتلك CatBoost استراتيجية مدمجة لموازنة أوزان الفئات تلقائياً تعمل بشكل أكثر متانة عملياً من المعايرة اليدوية المطلوبة لـ LightGBM.
معالجة أذكى للميزات الفئوية. ميزات مثل نوع وسم HTML أو مصدر المرشح (JSON-LD مقابل نص DOM مقابل JavaScript) تتم معالجتها أصلياً بواسطة CatBoost، دون الحاجة لترميزها يدوياً كأرقام. هذا يقلل من فقدان المعلومات.
إعادة التدريب التلقائي
لا يدرب خط الأنابيب لدينا النماذج مرة واحدة فقط — بل يفعل ذلك باستمرار. كل يوم، يُعاد تدريب أفضل نموذج حالي ببيانات جديدة. مرة في الأسبوع، تُجرى مقارنة كاملة لجميع تكوينات النماذج — هكذا اكتشفنا “تغيير النظام” إلى CatBoost.
خدمة الكاشف التي تجري اكتشاف الأسعار في الوقت الفعلي تحمل النماذج الجديدة تلقائياً. من اكتشاف نموذج أفضل إلى نشره في الإنتاج لا يستغرق سوى دقائق.
ماذا يعني هذا لك
باختصار: اكتشاف أسعار أفضل، تصحيحات يدوية أقل. يجب أن تلاحظ تحسينات خاصة في المتاجر ذات تخطيطات الصفحات المعقدة أو متغيرات الأسعار المتعددة أو العروض غير المعتادة.
عندما يكون النموذج غير متأكد، سترى ذلك في مؤشر الثقة أثناء إنشاء المتتبع. في تلك الحالات، يمكنك ببساطة تأكيد السعر يدوياً — ومساعدة النموذج على التعلم لجولة التدريب التالية في نفس الوقت.
جربه وأنشئ متتبعك التالي — CatBoost يتولى الآن اكتشاف الأسعار.
