Web Semántica — Que el sistema comprenda lo que el documento dice, no solo lo que contiene

Investigación aplicada en colaboración con la UPV/EHU para construir un sistema de recomendación de noticias capaz de relacionar contenidos por similitud semántica, combinando recuperación de información y procesamiento de lenguaje natural.

El reto

Cuando el usuario está leyendo una noticia, lo que le interesa no es buscar: es seguir leyendo.

Los sistemas de recuperación de información clásicos parten de una query explícita del usuario: alguien escribe una búsqueda y el sistema devuelve los documentos más relevantes. Pero en un portal de noticias como Globedia, el usuario no busca: lee. Y necesita que el sistema entienda el contenido que está consumiendo para sugerirle otros documentos relacionados. La pregunta de fondo era cómo construir un sistema que “comprendiera” un documento web y lo relacionara con otros similares, partiendo del propio documento como punto de referencia en lugar de una consulta tradicional.

"Web Semántica fue uno de los primeros proyectos donde HV Labs combinó recuperación de información y procesamiento de lenguaje natural con propósito comercial. El equipo se formó con la UPV/EHU y aplicó las técnicas directamente sobre un portal en producción."

Iker Barrena — Director de Hispavista Labs

Datos del proyecto

Consorcio

UPV/EHU (Grupo Pattern Recognition & Speech Technology), Hispavista Labs

Periodo

Septiembre 2011 – Diciembre 2014 (3 años)

Rol HVLabs

Preparación de datos, desarrollo, validación y despliegue en producción

Timeline del proyecto

40 meses, de la formación universitaria al despliegue en producción

El proyecto encadenó capacitación interna del equipo de HV Labs por parte de la UPV/EHU, desarrollo de algoritmos adaptados al caso de uso y despliegue real sobre Globedia.com.

Formación del equipo

Capacitación en NLP y Machine Learning con la UPV/EHU

Preparación de datos

Estructuración del corpus de noticias

Prueba de algoritmos

Modelos vectoriales y probabilísticos

Tuneo y validación

Ajuste contra el comportamiento real del portal

Despliegue en producción

Sistema operativo sobre Globedia.com

La solución

Cuatro componentes que convierten un documento en su propia consulta de búsqueda

Capacitación universitaria del equipo interno

Inversión deliberada en formar al equipo de HV Labs en técnicas avanzadas de NLP y Machine Learning, con supervisión continua de personal académico de la UPV/EHU. La capacidad técnica se construye, no se subcontrata.

Adaptación de la recuperación de información al contexto real

En lugar de partir de una consulta explícita, el sistema utiliza el propio documento o las etiquetas asociadas por el usuario como referencia para buscar contenidos similares. Es una adaptación arquitectónica, no solo algorítmica.

Modelos vectorial y probabilístico complementarios

Trabajo con dos aproximaciones distintas: representación vectorial del documento como query y uso de etiquetas como referencia probabilística. Cada modelo se adapta mejor a un escenario distinto; la combinación amplía el alcance del sistema.

Validación contra producción real

El sistema se desplegó sobre Globedia, un portal con usuarios y tráfico real. La validación no fue solo técnica: incluyó la respuesta efectiva del usuario al contenido recomendado.

Por qué te importa

Lo que aprendemos aquí se aplica a cualquier organización que necesita estructurar conocimiento disperso para que el sistema lo entienda

Web Semántica no es solo un proyecto de portales de noticias. Es uno de los proyectos fundacionales del trabajo de HV Labs en NLP y recuperación de información, técnicas que después han sostenido casos como Portalia, J4Match y Gastroegutegia.

01

La inversión en formación interna es la inversión más rentable

Capacitarse con un grupo académico de referencia y aplicar lo aprendido sobre un portal real es una de las formas más sólidas de adquirir solvencia técnica duradera.

02

La técnica se adapta al problema, no al revés

Adaptar la recuperación de información clásica a un escenario donde la consulta no es explícita exige criterio arquitectónico. La sofisticación está en el ajuste, no en la complejidad por sí misma.

03

Validación en producción real, no en laboratorio

El criterio del usuario es el único juez relevante de un sistema de recomendación. Trabajar sobre un portal con tráfico real es la única manera de saber si el sistema funciona donde tiene que funcionar.

Casos de éxito