शासन परिवर्तन: कैसे CatBoost ने हमारे पिछले मूल्य पहचान मॉडल को हटा दिया

एक नया चैंपियन

पिछले सप्ताहांत, कुछ ऐसा हुआ जिसे हम आंतरिक रूप से “शासन परिवर्तन” कहते हैं: LightGBM पर आधारित हमारे मूल्य पहचान मॉडल को CatBoost मॉडल से बदल दिया गया। यह तकनीकी लगता है — और है भी। लेकिन प्रभाव सीधे दिखाई देते हैं: आपके उत्पाद पृष्ठों पर मूल्य पहचान अभी और अधिक सटीक हो गई है।

इस अवसर को चिह्नित करने के लिए, हम आपको पर्दे के पीछे की एक झलक देना चाहते हैं कि हमारी AI-संचालित मूल्य पहचान कैसे काम करती है, हम अपने मॉडल कैसे प्रशिक्षित करते हैं, और CatBoost अब क्यों शीर्ष पर है।

समस्या: कई में से एक संख्या

एक सामान्य उत्पाद पृष्ठ में दर्जनों संख्याएँ होती हैं: आर्टिकल ID, रेटिंग, शिपिंग लागत, मात्रा, काटी गई कीमतें, वैरिएंट कीमतें। वास्तविक खरीद मूल्य उनमें से सिर्फ एक है। हमारे मॉडल को इन सभी उम्मीदवारों में से सही को चुनना होता है — किसी भी वेबसाइट पर, लेआउट, भाषा या शॉप सिस्टम की परवाह किए बिना।

हमारी पाइपलाइन कैसे काम करती है

मूल्य पहचान कई चरणों में चलती है:

चरण 1: उम्मीदवारों का संग्रह

जब आप ट्रैकिंग के लिए एक URL जोड़ते हैं, तो हमारा सिस्टम पूरे पृष्ठ की संरचना का विश्लेषण करता है। हर उस तत्व की पहचान की जाती है जिसमें कीमत हो सकती है। हम समानांतर में कई स्रोतों का उपयोग करते हैं:

संरचित डेटा: JSON-LD और Schema.org मार्कअप जो कई दुकानें सर्च इंजन के लिए प्रदान करती हैं।
DOM विश्लेषण: हर टेक्स्ट एलिमेंट की जाँच मूल्य जैसे पैटर्न के लिए की जाती है — मुद्रा चिह्नों, दशमलव विभाजकों आदि वाली संख्याएँ।
JavaScript निष्कर्षण: कॉन्फ़िगर करने योग्य उत्पादों वाली दुकानों के लिए (जैसे विभिन्न आकार), हम एम्बेडेड JavaScript से सीधे वैरिएंट कीमतें निकालते हैं।

चरण 2: फ़ीचर निष्कर्षण

प्रत्येक मूल्य उम्मीदवार के लिए, हम लगभग दो दर्जन फ़ीचर्स की गणना करते हैं जो मॉडल को वास्तविक कीमत को शोर से अलग करने में मदद करते हैं:

HTML संदर्भ: क्या आसपास के एलिमेंट में “कीमत”, “ऑफ़र” या “वर्तमान” जैसे शब्द हैं? क्या टेक्स्ट दृश्य रूप से बल दिया गया है (बोल्ड, बड़ा फ़ॉन्ट)?
पृष्ठ स्थिति: एलिमेंट DOM में कितना गहराई से नेस्टेड है? यह अन्य उम्मीदवारों के सापेक्ष कहाँ बैठता है?
सांख्यिकीय संदर्भ: मान पृष्ठ पर अन्य संख्याओं की तुलना में कैसा है? क्या यह एक आउटलायर है या सामान्य मूल्य सीमा के भीतर है?
दुकान-विशिष्ट संकेत: मॉडल ऐतिहासिक रूप से इस डोमेन पर कीमतों का कितनी अच्छी तरह पता लगाता है? कुछ दुकानें दूसरों की तुलना में कठिन होती हैं।

चरण 3: भविष्यवाणी

सभी उम्मीदवारों को उनके फ़ीचर्स के साथ हमारी ML सेवा को भेजा जाता है। मॉडल प्रत्येक उम्मीदवार को एक संभावना के साथ स्कोर करता है: “मुझे कितना भरोसा है कि यह वास्तविक उत्पाद मूल्य है?” सबसे अधिक स्कोर वाला उम्मीदवार जीतता है।

प्रशिक्षण: मॉडल कैसे सीखता है

हमारा मॉडल वास्तविक उपयोगकर्ता डेटा से सीखता है। हर बार जब आप कीमत की पुष्टि या सुधार करते हैं, तो वह फ़ीडबैक प्रशिक्षण संकेत के रूप में वापस आता है। “इस पृष्ठ पर यह संख्या सही कीमत है” का मैपिंग अगले प्रशिक्षण चक्र के लिए एक लेबल किया गया उदाहरण बन जाता है।

चुनौती: एक पृष्ठ पर सभी उम्मीदवारों में से, आमतौर पर केवल एक ही सही कीमत होती है — अनुपात लगभग 1:50 है। इस असंतुलन को प्रशिक्षण के दौरान ध्यान में रखना होगा, अन्यथा मॉडल बस सब कुछ “कीमत नहीं” के रूप में वर्गीकृत करना सीख जाता है।

हम नियमित रूप से समानांतर में कई मॉडल प्रकारों को प्रशिक्षित करते हैं और एक अलग रखे गए परीक्षण सेट पर उनके प्रदर्शन की तुलना करते हैं। परीक्षण सेट सख्ती से पृष्ठ के अनुसार विभाजित होता है — मॉडल का कभी भी उन पृष्ठों पर परीक्षण नहीं किया जाता जो उसने प्रशिक्षण के दौरान देखे हैं।

CatBoost क्यों जीता

हमारी नवीनतम मॉडल तुलना में, CatBoost ने पिछले LightGBM मॉडल (जो जनवरी से प्रोडक्शन में था) को प्रमुख मेट्रिक्स पर पछाड़ दिया:

Top-1 सटीकता 80%: 5 में से 4 उत्पाद पृष्ठों के लिए, मॉडल पहली बार में ही सही कीमत की पहचान कर लेता है।
Top-3 सटीकता 84%: तीन सर्वश्रेष्ठ उम्मीदवारों पर विचार करने पर, सही कीमत लगभग हमेशा उनमें शामिल होती है।

CatBoost को बेहतर क्या बनाता है? दो कारक सामने आते हैं:

क्लास असंतुलन का बेहतर प्रबंधन। CatBoost में स्वचालित क्लास वेट बैलेंसिंग के लिए एक अंतर्निहित रणनीति है जो व्यवहार में LightGBM के लिए आवश्यक मैनुअल कैलिब्रेशन से अधिक मजबूती से काम करती है।

श्रेणीबद्ध फ़ीचर्स का स्मार्ट प्रसंस्करण। HTML टैग प्रकार या उम्मीदवार स्रोत (JSON-LD vs. DOM टेक्स्ट vs. JavaScript) जैसे फ़ीचर्स को CatBoost द्वारा मूल रूप से संसाधित किया जाता है, बिना हमें उन्हें मैन्युअल रूप से संख्याओं के रूप में एन्कोड किए। इससे सूचना हानि कम होती है।

स्वचालित पुनः प्रशिक्षण

हमारी पाइपलाइन मॉडलों को सिर्फ एक बार प्रशिक्षित नहीं करती — यह लगातार करती है। हर दिन, वर्तमान सर्वश्रेष्ठ मॉडल को नए डेटा के साथ पुनः प्रशिक्षित किया जाता है। सप्ताह में एक बार, सभी मॉडल कॉन्फ़िगरेशन की पूर्ण तुलना चलती है — इसी तरह हमने CatBoost की ओर “शासन परिवर्तन” की खोज की।

रीयल-टाइम मूल्य पहचान करने वाली डिटेक्टर सेवा स्वचालित रूप से नए मॉडल लोड करती है। बेहतर मॉडल की खोज से लेकर प्रोडक्शन में तैनाती तक बस कुछ ही मिनट लगते हैं।

आपके लिए इसका क्या मतलब है

संक्षेप में: बेहतर मूल्य पहचान, कम मैनुअल सुधार। आपको विशेष रूप से जटिल पृष्ठ लेआउट, कई मूल्य वैरिएंट, या असामान्य प्रस्तुति वाली दुकानों पर सुधार दिखाई देने चाहिए।

जब मॉडल अनिश्चित होता है, तो आप ट्रैकर निर्माण के दौरान कॉन्फ़िडेंस इंडिकेटर में देखेंगे। उन मामलों में, आप बस मैन्युअल रूप से कीमत की पुष्टि कर सकते हैं — और साथ ही मॉडल को उसके अगले प्रशिक्षण चक्र के लिए सीखने में मदद कर सकते हैं।

इसे आज़माएँ और अपना अगला ट्रैकर बनाएँ — CatBoost अब मूल्य पहचान संभाल रहा है।

शासन परिवर्तन: कैसे CatBoost ने हमारे पिछले मूल्य पहचान मॉडल को हटा दिया

एक नया चैंपियन

समस्या: कई में से एक संख्या

हमारी पाइपलाइन कैसे काम करती है

चरण 1: उम्मीदवारों का संग्रह

चरण 2: फ़ीचर निष्कर्षण

चरण 3: भविष्यवाणी

प्रशिक्षण: मॉडल कैसे सीखता है

CatBoost क्यों जीता

स्वचालित पुनः प्रशिक्षण

आपके लिए इसका क्या मतलब है

Ready to Never Miss a Deal Again?

Related Posts

We now read every shop's terms of service — and we're failing at exactly the right step

When shops lock us out — why some prices don't refresh

Three small features that make DealMonitor better in everyday use

Smarter Price Alerts and Self-Healing Trackers

दोस्तों को आमंत्रित करें और ट्रैकर स्लॉट अनलॉक करें

अपनी विशलिस्ट आयात करें — Steam और Amazon एक क्लिक में

DealMonitor का 1 साल: आइडिया से प्राइस ट्रैकर तक

v0.12: HTTP-First Scraping and the End of Selenium Dependency

The 5 Best Price Comparison Tools in 2026 — Compared

Amazon Price History: How to Track Prices the Right Way

v0.11: API Integrations for Etsy, Game Stores, and Multi-Price Tracking

त्योहारों के तोहफे अभी से सोच रहे हैं? हाँ, मार्च में भी यह समझदारी है।

v0.10: Tackling Amazon and AliExpress with APIs

ऑनलाइन दुकानें आपको खरीदने के लिए कैसे बरगलाती हैं — और कैसे करें बचाव

DealMonitor बीटा में: सब कुछ जो नया है

स्मार्ट ऑनलाइन शॉपिंग की संपूर्ण गाइड

v0.8: Dark Mode, Error Monitoring, and Our First Blog Posts

v0.7: Web Push Notifications and Dashboard Search

AI किसी भी वेबसाइट पर कीमतें कैसे पहचानता है

v0.6: Telegram Notifications, Tracker Groups, and Sharing

प्राइस अलर्ट से पैसे बचाने के 5 तरीके

v0.5: Google OAuth and 9 Languages from Day One

ऑनलाइन कीमतों को कैसे ट्रैक करें