DealMonitor Logo
Back to Blog
Cambio de régimen: cómo CatBoost destronó a nuestro modelo anterior de detección de precios

Cambio de régimen: cómo CatBoost destronó a nuestro modelo anterior de detección de precios

·by DealMonitor Team·5 min de lectura
machine-learningaitechupdate

Un nuevo campeón

El pasado fin de semana ocurrió lo que internamente llamamos un “Cambio de Régimen”: nuestro modelo de detección de precios basado en LightGBM fue reemplazado por un modelo CatBoost. Suena técnico — y lo es. Pero los efectos son directamente perceptibles: la detección de precios en las páginas de productos acaba de volverse más precisa.

Para celebrar la ocasión, queremos darles un vistazo entre bastidores de cómo funciona nuestra detección de precios impulsada por IA, cómo entrenamos nuestros modelos y por qué CatBoost ahora sale ganando.

El problema: un número entre muchos

Una página de producto típica contiene docenas de números: IDs de artículos, valoraciones, costes de envío, cantidades, precios tachados, precios de variantes. El precio de compra real es solo uno de ellos. Nuestro modelo necesita elegir el correcto entre todos estos candidatos — en cualquier sitio web, independientemente del diseño, idioma o sistema de tienda.

Cómo funciona nuestro pipeline

La detección de precios se ejecuta en varias etapas:

Etapa 1: Recopilación de candidatos

Cuando añades una URL para seguimiento, nuestro sistema analiza la estructura completa de la página. Se identifica cada elemento que podría contener un precio. Utilizamos múltiples fuentes en paralelo:

  • Datos estructurados: Marcado JSON-LD y Schema.org que muchas tiendas proporcionan para los motores de búsqueda.
  • Análisis del DOM: Cada elemento de texto se examina en busca de patrones similares a precios — números con símbolos de moneda, separadores decimales, etc.
  • Extracción de JavaScript: Para tiendas con productos configurables (p. ej., diferentes tallas), extraemos los precios de variantes directamente del JavaScript incrustado.

Etapa 2: Extracción de características

Para cada candidato a precio, calculamos aproximadamente dos docenas de características que ayudan al modelo a distinguir el precio real del ruido:

  • Contexto HTML: ¿Contiene el elemento circundante palabras como “precio”, “oferta” o “actual”? ¿Está el texto enfatizado visualmente (negrita, fuente grande)?
  • Posición en la página: ¿Qué tan profundamente anidado está el elemento en el DOM? ¿Dónde se sitúa respecto a otros candidatos?
  • Contexto estadístico: ¿Cómo se compara el valor con otros números de la página? ¿Es un valor atípico o está dentro de un rango de precios típico?
  • Señales específicas de la tienda: ¿Qué tan bien detecta el modelo históricamente los precios en este dominio? Algunas tiendas son más difíciles que otras.

Etapa 3: Predicción

Todos los candidatos con sus características se envían a nuestro servicio de ML. El modelo puntúa a cada candidato con una probabilidad: “¿Qué tan seguro estoy de que este es el precio real del producto?” El candidato con la puntuación más alta gana.

Entrenamiento: cómo aprende el modelo

Nuestro modelo aprende de datos reales de usuarios. Cada vez que confirmas o corriges un precio, esa retroalimentación regresa como señal de entrenamiento. La correspondencia “este número en esta página es el precio correcto” se convierte en un ejemplo etiquetado para la siguiente ronda de entrenamiento.

El desafío: de todos los candidatos en una página, típicamente solo uno es el precio correcto — la proporción es aproximadamente 1:50. Este desequilibrio debe tenerse en cuenta durante el entrenamiento, de lo contrario el modelo simplemente aprende a clasificar todo como “no es un precio”.

Regularmente entrenamos múltiples tipos de modelos en paralelo y comparamos su rendimiento en un conjunto de prueba separado. El conjunto de prueba está estrictamente dividido por página — el modelo nunca se evalúa con páginas que ha visto durante el entrenamiento.

Por qué ganó CatBoost

En nuestra última comparación de modelos, CatBoost superó al modelo anterior LightGBM (que estaba en producción desde enero) en las métricas clave:

  • Precisión Top-1 del 80%: Para 4 de cada 5 páginas de productos, el modelo identifica el precio correcto en el primer intento.
  • Precisión Top-3 del 84%: Al considerar los tres mejores candidatos, el precio correcto casi siempre está entre ellos.

¿Qué hace mejor a CatBoost? Dos factores destacan:

Mejor manejo del desequilibrio de clases. CatBoost tiene una estrategia integrada para el equilibrio automático de pesos de clase que funciona de forma más robusta en la práctica que la calibración manual necesaria para LightGBM.

Procesamiento más inteligente de características categóricas. Características como el tipo de etiqueta HTML o la fuente del candidato (JSON-LD vs. texto del DOM vs. JavaScript) son procesadas nativamente por CatBoost, sin que tengamos que codificarlas manualmente como números. Esto reduce la pérdida de información.

Reentrenamiento automático

Nuestro pipeline no solo entrena modelos una vez — lo hace continuamente. Cada día, el mejor modelo actual se reentrena con datos nuevos. Una vez por semana, se ejecuta una comparación completa de todas las configuraciones de modelos — así es como descubrimos el “Cambio de Régimen” hacia CatBoost.

El servicio de detección que realiza la detección de precios en tiempo real carga nuevos modelos automáticamente. Desde descubrir un modelo mejor hasta desplegarlo en producción solo toma minutos.

Qué significa esto para ti

En resumen: mejor detección de precios, menos correcciones manuales necesarias. Deberías notar mejoras especialmente en tiendas con diseños de página complejos, múltiples variantes de precios o presentaciones inusuales.

Cuando el modelo no está seguro, lo verás en el indicador de confianza durante la creación del rastreador. En esos casos, simplemente puedes confirmar el precio manualmente — y al mismo tiempo ayudar al modelo a aprender para su próxima ronda de entrenamiento.

Pruébalo y crea tu próximo rastreador — CatBoost ahora se encarga de la detección de precios.

Ready to Never Miss a Deal Again?

Start tracking prices in seconds. No credit card required.

Start for Free

Related Posts

Cambio de régimen: cómo CatBoost destronó a nuestro modelo anterior de detección de precios