एक नया चैंपियन
पिछले सप्ताहांत, कुछ ऐसा हुआ जिसे हम आंतरिक रूप से “शासन परिवर्तन” कहते हैं: LightGBM पर आधारित हमारे मूल्य पहचान मॉडल को CatBoost मॉडल से बदल दिया गया। यह तकनीकी लगता है — और है भी। लेकिन प्रभाव सीधे दिखाई देते हैं: आपके उत्पाद पृष्ठों पर मूल्य पहचान अभी और अधिक सटीक हो गई है।
इस अवसर को चिह्नित करने के लिए, हम आपको पर्दे के पीछे की एक झलक देना चाहते हैं कि हमारी AI-संचालित मूल्य पहचान कैसे काम करती है, हम अपने मॉडल कैसे प्रशिक्षित करते हैं, और CatBoost अब क्यों शीर्ष पर है।
समस्या: कई में से एक संख्या
एक सामान्य उत्पाद पृष्ठ में दर्जनों संख्याएँ होती हैं: आर्टिकल ID, रेटिंग, शिपिंग लागत, मात्रा, काटी गई कीमतें, वैरिएंट कीमतें। वास्तविक खरीद मूल्य उनमें से सिर्फ एक है। हमारे मॉडल को इन सभी उम्मीदवारों में से सही को चुनना होता है — किसी भी वेबसाइट पर, लेआउट, भाषा या शॉप सिस्टम की परवाह किए बिना।
हमारी पाइपलाइन कैसे काम करती है
मूल्य पहचान कई चरणों में चलती है:
चरण 1: उम्मीदवारों का संग्रह
जब आप ट्रैकिंग के लिए एक URL जोड़ते हैं, तो हमारा सिस्टम पूरे पृष्ठ की संरचना का विश्लेषण करता है। हर उस तत्व की पहचान की जाती है जिसमें कीमत हो सकती है। हम समानांतर में कई स्रोतों का उपयोग करते हैं:
- संरचित डेटा: JSON-LD और Schema.org मार्कअप जो कई दुकानें सर्च इंजन के लिए प्रदान करती हैं।
- DOM विश्लेषण: हर टेक्स्ट एलिमेंट की जाँच मूल्य जैसे पैटर्न के लिए की जाती है — मुद्रा चिह्नों, दशमलव विभाजकों आदि वाली संख्याएँ।
- JavaScript निष्कर्षण: कॉन्फ़िगर करने योग्य उत्पादों वाली दुकानों के लिए (जैसे विभिन्न आकार), हम एम्बेडेड JavaScript से सीधे वैरिएंट कीमतें निकालते हैं।
चरण 2: फ़ीचर निष्कर्षण
प्रत्येक मूल्य उम्मीदवार के लिए, हम लगभग दो दर्जन फ़ीचर्स की गणना करते हैं जो मॉडल को वास्तविक कीमत को शोर से अलग करने में मदद करते हैं:
- HTML संदर्भ: क्या आसपास के एलिमेंट में “कीमत”, “ऑफ़र” या “वर्तमान” जैसे शब्द हैं? क्या टेक्स्ट दृश्य रूप से बल दिया गया है (बोल्ड, बड़ा फ़ॉन्ट)?
- पृष्ठ स्थिति: एलिमेंट DOM में कितना गहराई से नेस्टेड है? यह अन्य उम्मीदवारों के सापेक्ष कहाँ बैठता है?
- सांख्यिकीय संदर्भ: मान पृष्ठ पर अन्य संख्याओं की तुलना में कैसा है? क्या यह एक आउटलायर है या सामान्य मूल्य सीमा के भीतर है?
- दुकान-विशिष्ट संकेत: मॉडल ऐतिहासिक रूप से इस डोमेन पर कीमतों का कितनी अच्छी तरह पता लगाता है? कुछ दुकानें दूसरों की तुलना में कठिन होती हैं।
चरण 3: भविष्यवाणी
सभी उम्मीदवारों को उनके फ़ीचर्स के साथ हमारी ML सेवा को भेजा जाता है। मॉडल प्रत्येक उम्मीदवार को एक संभावना के साथ स्कोर करता है: “मुझे कितना भरोसा है कि यह वास्तविक उत्पाद मूल्य है?” सबसे अधिक स्कोर वाला उम्मीदवार जीतता है।
प्रशिक्षण: मॉडल कैसे सीखता है
हमारा मॉडल वास्तविक उपयोगकर्ता डेटा से सीखता है। हर बार जब आप कीमत की पुष्टि या सुधार करते हैं, तो वह फ़ीडबैक प्रशिक्षण संकेत के रूप में वापस आता है। “इस पृष्ठ पर यह संख्या सही कीमत है” का मैपिंग अगले प्रशिक्षण चक्र के लिए एक लेबल किया गया उदाहरण बन जाता है।
चुनौती: एक पृष्ठ पर सभी उम्मीदवारों में से, आमतौर पर केवल एक ही सही कीमत होती है — अनुपात लगभग 1:50 है। इस असंतुलन को प्रशिक्षण के दौरान ध्यान में रखना होगा, अन्यथा मॉडल बस सब कुछ “कीमत नहीं” के रूप में वर्गीकृत करना सीख जाता है।
हम नियमित रूप से समानांतर में कई मॉडल प्रकारों को प्रशिक्षित करते हैं और एक अलग रखे गए परीक्षण सेट पर उनके प्रदर्शन की तुलना करते हैं। परीक्षण सेट सख्ती से पृष्ठ के अनुसार विभाजित होता है — मॉडल का कभी भी उन पृष्ठों पर परीक्षण नहीं किया जाता जो उसने प्रशिक्षण के दौरान देखे हैं।
CatBoost क्यों जीता
हमारी नवीनतम मॉडल तुलना में, CatBoost ने पिछले LightGBM मॉडल (जो जनवरी से प्रोडक्शन में था) को प्रमुख मेट्रिक्स पर पछाड़ दिया:
- Top-1 सटीकता 80%: 5 में से 4 उत्पाद पृष्ठों के लिए, मॉडल पहली बार में ही सही कीमत की पहचान कर लेता है।
- Top-3 सटीकता 84%: तीन सर्वश्रेष्ठ उम्मीदवारों पर विचार करने पर, सही कीमत लगभग हमेशा उनमें शामिल होती है।
CatBoost को बेहतर क्या बनाता है? दो कारक सामने आते हैं:
क्लास असंतुलन का बेहतर प्रबंधन। CatBoost में स्वचालित क्लास वेट बैलेंसिंग के लिए एक अंतर्निहित रणनीति है जो व्यवहार में LightGBM के लिए आवश्यक मैनुअल कैलिब्रेशन से अधिक मजबूती से काम करती है।
श्रेणीबद्ध फ़ीचर्स का स्मार्ट प्रसंस्करण। HTML टैग प्रकार या उम्मीदवार स्रोत (JSON-LD vs. DOM टेक्स्ट vs. JavaScript) जैसे फ़ीचर्स को CatBoost द्वारा मूल रूप से संसाधित किया जाता है, बिना हमें उन्हें मैन्युअल रूप से संख्याओं के रूप में एन्कोड किए। इससे सूचना हानि कम होती है।
स्वचालित पुनः प्रशिक्षण
हमारी पाइपलाइन मॉडलों को सिर्फ एक बार प्रशिक्षित नहीं करती — यह लगातार करती है। हर दिन, वर्तमान सर्वश्रेष्ठ मॉडल को नए डेटा के साथ पुनः प्रशिक्षित किया जाता है। सप्ताह में एक बार, सभी मॉडल कॉन्फ़िगरेशन की पूर्ण तुलना चलती है — इसी तरह हमने CatBoost की ओर “शासन परिवर्तन” की खोज की।
रीयल-टाइम मूल्य पहचान करने वाली डिटेक्टर सेवा स्वचालित रूप से नए मॉडल लोड करती है। बेहतर मॉडल की खोज से लेकर प्रोडक्शन में तैनाती तक बस कुछ ही मिनट लगते हैं।
आपके लिए इसका क्या मतलब है
संक्षेप में: बेहतर मूल्य पहचान, कम मैनुअल सुधार। आपको विशेष रूप से जटिल पृष्ठ लेआउट, कई मूल्य वैरिएंट, या असामान्य प्रस्तुति वाली दुकानों पर सुधार दिखाई देने चाहिए।
जब मॉडल अनिश्चित होता है, तो आप ट्रैकर निर्माण के दौरान कॉन्फ़िडेंस इंडिकेटर में देखेंगे। उन मामलों में, आप बस मैन्युअल रूप से कीमत की पुष्टि कर सकते हैं — और साथ ही मॉडल को उसके अगले प्रशिक्षण चक्र के लिए सीखने में मदद कर सकते हैं।
इसे आज़माएँ और अपना अगला ट्रैकर बनाएँ — CatBoost अब मूल्य पहचान संभाल रहा है।
