DealMonitor Logo
Back to Blog
शासन परिवर्तन: कैसे CatBoost ने हमारे पिछले मूल्य पहचान मॉडल को हटा दिया

शासन परिवर्तन: कैसे CatBoost ने हमारे पिछले मूल्य पहचान मॉडल को हटा दिया

·by DealMonitor Team·5 मिनट पढ़ने का समय
machine-learningaitechupdate

एक नया चैंपियन

पिछले सप्ताहांत, कुछ ऐसा हुआ जिसे हम आंतरिक रूप से “शासन परिवर्तन” कहते हैं: LightGBM पर आधारित हमारे मूल्य पहचान मॉडल को CatBoost मॉडल से बदल दिया गया। यह तकनीकी लगता है — और है भी। लेकिन प्रभाव सीधे दिखाई देते हैं: आपके उत्पाद पृष्ठों पर मूल्य पहचान अभी और अधिक सटीक हो गई है।

इस अवसर को चिह्नित करने के लिए, हम आपको पर्दे के पीछे की एक झलक देना चाहते हैं कि हमारी AI-संचालित मूल्य पहचान कैसे काम करती है, हम अपने मॉडल कैसे प्रशिक्षित करते हैं, और CatBoost अब क्यों शीर्ष पर है।

समस्या: कई में से एक संख्या

एक सामान्य उत्पाद पृष्ठ में दर्जनों संख्याएँ होती हैं: आर्टिकल ID, रेटिंग, शिपिंग लागत, मात्रा, काटी गई कीमतें, वैरिएंट कीमतें। वास्तविक खरीद मूल्य उनमें से सिर्फ एक है। हमारे मॉडल को इन सभी उम्मीदवारों में से सही को चुनना होता है — किसी भी वेबसाइट पर, लेआउट, भाषा या शॉप सिस्टम की परवाह किए बिना।

हमारी पाइपलाइन कैसे काम करती है

मूल्य पहचान कई चरणों में चलती है:

चरण 1: उम्मीदवारों का संग्रह

जब आप ट्रैकिंग के लिए एक URL जोड़ते हैं, तो हमारा सिस्टम पूरे पृष्ठ की संरचना का विश्लेषण करता है। हर उस तत्व की पहचान की जाती है जिसमें कीमत हो सकती है। हम समानांतर में कई स्रोतों का उपयोग करते हैं:

  • संरचित डेटा: JSON-LD और Schema.org मार्कअप जो कई दुकानें सर्च इंजन के लिए प्रदान करती हैं।
  • DOM विश्लेषण: हर टेक्स्ट एलिमेंट की जाँच मूल्य जैसे पैटर्न के लिए की जाती है — मुद्रा चिह्नों, दशमलव विभाजकों आदि वाली संख्याएँ।
  • JavaScript निष्कर्षण: कॉन्फ़िगर करने योग्य उत्पादों वाली दुकानों के लिए (जैसे विभिन्न आकार), हम एम्बेडेड JavaScript से सीधे वैरिएंट कीमतें निकालते हैं।

चरण 2: फ़ीचर निष्कर्षण

प्रत्येक मूल्य उम्मीदवार के लिए, हम लगभग दो दर्जन फ़ीचर्स की गणना करते हैं जो मॉडल को वास्तविक कीमत को शोर से अलग करने में मदद करते हैं:

  • HTML संदर्भ: क्या आसपास के एलिमेंट में “कीमत”, “ऑफ़र” या “वर्तमान” जैसे शब्द हैं? क्या टेक्स्ट दृश्य रूप से बल दिया गया है (बोल्ड, बड़ा फ़ॉन्ट)?
  • पृष्ठ स्थिति: एलिमेंट DOM में कितना गहराई से नेस्टेड है? यह अन्य उम्मीदवारों के सापेक्ष कहाँ बैठता है?
  • सांख्यिकीय संदर्भ: मान पृष्ठ पर अन्य संख्याओं की तुलना में कैसा है? क्या यह एक आउटलायर है या सामान्य मूल्य सीमा के भीतर है?
  • दुकान-विशिष्ट संकेत: मॉडल ऐतिहासिक रूप से इस डोमेन पर कीमतों का कितनी अच्छी तरह पता लगाता है? कुछ दुकानें दूसरों की तुलना में कठिन होती हैं।

चरण 3: भविष्यवाणी

सभी उम्मीदवारों को उनके फ़ीचर्स के साथ हमारी ML सेवा को भेजा जाता है। मॉडल प्रत्येक उम्मीदवार को एक संभावना के साथ स्कोर करता है: “मुझे कितना भरोसा है कि यह वास्तविक उत्पाद मूल्य है?” सबसे अधिक स्कोर वाला उम्मीदवार जीतता है।

प्रशिक्षण: मॉडल कैसे सीखता है

हमारा मॉडल वास्तविक उपयोगकर्ता डेटा से सीखता है। हर बार जब आप कीमत की पुष्टि या सुधार करते हैं, तो वह फ़ीडबैक प्रशिक्षण संकेत के रूप में वापस आता है। “इस पृष्ठ पर यह संख्या सही कीमत है” का मैपिंग अगले प्रशिक्षण चक्र के लिए एक लेबल किया गया उदाहरण बन जाता है।

चुनौती: एक पृष्ठ पर सभी उम्मीदवारों में से, आमतौर पर केवल एक ही सही कीमत होती है — अनुपात लगभग 1:50 है। इस असंतुलन को प्रशिक्षण के दौरान ध्यान में रखना होगा, अन्यथा मॉडल बस सब कुछ “कीमत नहीं” के रूप में वर्गीकृत करना सीख जाता है।

हम नियमित रूप से समानांतर में कई मॉडल प्रकारों को प्रशिक्षित करते हैं और एक अलग रखे गए परीक्षण सेट पर उनके प्रदर्शन की तुलना करते हैं। परीक्षण सेट सख्ती से पृष्ठ के अनुसार विभाजित होता है — मॉडल का कभी भी उन पृष्ठों पर परीक्षण नहीं किया जाता जो उसने प्रशिक्षण के दौरान देखे हैं।

CatBoost क्यों जीता

हमारी नवीनतम मॉडल तुलना में, CatBoost ने पिछले LightGBM मॉडल (जो जनवरी से प्रोडक्शन में था) को प्रमुख मेट्रिक्स पर पछाड़ दिया:

  • Top-1 सटीकता 80%: 5 में से 4 उत्पाद पृष्ठों के लिए, मॉडल पहली बार में ही सही कीमत की पहचान कर लेता है।
  • Top-3 सटीकता 84%: तीन सर्वश्रेष्ठ उम्मीदवारों पर विचार करने पर, सही कीमत लगभग हमेशा उनमें शामिल होती है।

CatBoost को बेहतर क्या बनाता है? दो कारक सामने आते हैं:

क्लास असंतुलन का बेहतर प्रबंधन। CatBoost में स्वचालित क्लास वेट बैलेंसिंग के लिए एक अंतर्निहित रणनीति है जो व्यवहार में LightGBM के लिए आवश्यक मैनुअल कैलिब्रेशन से अधिक मजबूती से काम करती है।

श्रेणीबद्ध फ़ीचर्स का स्मार्ट प्रसंस्करण। HTML टैग प्रकार या उम्मीदवार स्रोत (JSON-LD vs. DOM टेक्स्ट vs. JavaScript) जैसे फ़ीचर्स को CatBoost द्वारा मूल रूप से संसाधित किया जाता है, बिना हमें उन्हें मैन्युअल रूप से संख्याओं के रूप में एन्कोड किए। इससे सूचना हानि कम होती है।

स्वचालित पुनः प्रशिक्षण

हमारी पाइपलाइन मॉडलों को सिर्फ एक बार प्रशिक्षित नहीं करती — यह लगातार करती है। हर दिन, वर्तमान सर्वश्रेष्ठ मॉडल को नए डेटा के साथ पुनः प्रशिक्षित किया जाता है। सप्ताह में एक बार, सभी मॉडल कॉन्फ़िगरेशन की पूर्ण तुलना चलती है — इसी तरह हमने CatBoost की ओर “शासन परिवर्तन” की खोज की।

रीयल-टाइम मूल्य पहचान करने वाली डिटेक्टर सेवा स्वचालित रूप से नए मॉडल लोड करती है। बेहतर मॉडल की खोज से लेकर प्रोडक्शन में तैनाती तक बस कुछ ही मिनट लगते हैं।

आपके लिए इसका क्या मतलब है

संक्षेप में: बेहतर मूल्य पहचान, कम मैनुअल सुधार। आपको विशेष रूप से जटिल पृष्ठ लेआउट, कई मूल्य वैरिएंट, या असामान्य प्रस्तुति वाली दुकानों पर सुधार दिखाई देने चाहिए।

जब मॉडल अनिश्चित होता है, तो आप ट्रैकर निर्माण के दौरान कॉन्फ़िडेंस इंडिकेटर में देखेंगे। उन मामलों में, आप बस मैन्युअल रूप से कीमत की पुष्टि कर सकते हैं — और साथ ही मॉडल को उसके अगले प्रशिक्षण चक्र के लिए सीखने में मदद कर सकते हैं।

इसे आज़माएँ और अपना अगला ट्रैकर बनाएँ — CatBoost अब मूल्य पहचान संभाल रहा है।

Ready to Never Miss a Deal Again?

Start tracking prices in seconds. No credit card required.

Start for Free

Related Posts

अपनी विशलिस्ट आयात करें — Steam और Amazon एक क्लिक में

अपनी विशलिस्ट आयात करें — Steam और Amazon एक क्लिक में

4 मिनट पढ़ने का समय

DealMonitor का 1 साल: आइडिया से प्राइस ट्रैकर तक

DealMonitor का 1 साल: आइडिया से प्राइस ट्रैकर तक

4 मिनट पढ़ने का समय

v0.12: HTTP-First Scraping and the End of Selenium Dependency

v0.12: HTTP-First Scraping and the End of Selenium Dependency

5 min read

The 5 Best Price Comparison Tools in 2026 — Compared

The 5 Best Price Comparison Tools in 2026 — Compared

7 min read

Amazon Price History: How to Track Prices the Right Way

Amazon Price History: How to Track Prices the Right Way

6 min read

v0.11: API Integrations for Etsy, Game Stores, and Multi-Price Tracking

v0.11: API Integrations for Etsy, Game Stores, and Multi-Price Tracking

5 min read

त्योहारों के तोहफे अभी से सोच रहे हैं? हाँ, मार्च में भी यह समझदारी है।

त्योहारों के तोहफे अभी से सोच रहे हैं? हाँ, मार्च में भी यह समझदारी है।

5 मिनट पढ़ने का समय

v0.10: Tackling Amazon and AliExpress with APIs

v0.10: Tackling Amazon and AliExpress with APIs

5 min read

ऑनलाइन दुकानें आपको खरीदने के लिए कैसे बरगलाती हैं — और कैसे करें बचाव

ऑनलाइन दुकानें आपको खरीदने के लिए कैसे बरगलाती हैं — और कैसे करें बचाव

8 मिनट पढ़ने का समय

DealMonitor बीटा में: सब कुछ जो नया है

DealMonitor बीटा में: सब कुछ जो नया है

5 मिनट पढ़ें

स्मार्ट ऑनलाइन शॉपिंग की संपूर्ण गाइड

स्मार्ट ऑनलाइन शॉपिंग की संपूर्ण गाइड

6 मिनट पढ़ने का समय

v0.8: Dark Mode, Error Monitoring, and Our First Blog Posts

v0.8: Dark Mode, Error Monitoring, and Our First Blog Posts

4 min read

v0.7: Web Push Notifications and Dashboard Search

v0.7: Web Push Notifications and Dashboard Search

5 min read

AI किसी भी वेबसाइट पर कीमतें कैसे पहचानता है

AI किसी भी वेबसाइट पर कीमतें कैसे पहचानता है

5 मिनट पढ़ने का समय

v0.6: Telegram Notifications, Tracker Groups, and Sharing

v0.6: Telegram Notifications, Tracker Groups, and Sharing

4 min read

प्राइस अलर्ट से पैसे बचाने के 5 तरीके

प्राइस अलर्ट से पैसे बचाने के 5 तरीके

5 मिनट पढ़ने का समय

v0.5: Google OAuth and 9 Languages from Day One

v0.5: Google OAuth and 9 Languages from Day One

4 min read

ऑनलाइन कीमतों को कैसे ट्रैक करें

ऑनलाइन कीमतों को कैसे ट्रैक करें

5 मिनट पढ़ने का समय

शासन परिवर्तन: कैसे CatBoost ने हमारे पिछले मूल्य पहचान मॉडल को हटा दिया