Web Semántica — Que el sistema comprenda lo que el documento dice, no solo lo que contiene
Investigación aplicada en colaboración con la UPV/EHU para construir un sistema de recomendación de noticias capaz de relacionar contenidos por similitud semántica, combinando recuperación de información y procesamiento de lenguaje natural.
El reto
Cuando el usuario está leyendo una noticia, lo que le interesa no es buscar: es seguir leyendo.
Los sistemas de recuperación de información clásicos parten de una query explícita del usuario: alguien escribe una búsqueda y el sistema devuelve los documentos más relevantes. Pero en un portal de noticias como Globedia, el usuario no busca: lee. Y necesita que el sistema entienda el contenido que está consumiendo para sugerirle otros documentos relacionados. La pregunta de fondo era cómo construir un sistema que “comprendiera” un documento web y lo relacionara con otros similares, partiendo del propio documento como punto de referencia en lugar de una consulta tradicional.
"Web Semántica fue uno de los primeros proyectos donde HV Labs combinó recuperación de información y procesamiento de lenguaje natural con propósito comercial. El equipo se formó con la UPV/EHU y aplicó las técnicas directamente sobre un portal en producción."
Iker Barrena — Director de Hispavista Labs
Datos del proyecto
Consorcio
UPV/EHU (Grupo Pattern Recognition & Speech Technology), Hispavista Labs
Periodo
Septiembre 2011 – Diciembre 2014 (3 años)
Rol HVLabs
Preparación de datos, desarrollo, validación y despliegue en producción
Timeline del proyecto
40 meses, de la formación universitaria al despliegue en producción
El proyecto encadenó capacitación interna del equipo de HV Labs por parte de la UPV/EHU, desarrollo de algoritmos adaptados al caso de uso y despliegue real sobre Globedia.com.
Preparación de datos
Estructuración del corpus de noticias
Prueba de algoritmos
Modelos vectoriales y probabilísticos
Tuneo y validación
Ajuste contra el comportamiento real del portal
Despliegue en producción
Sistema operativo sobre Globedia.com
La solución
Cuatro componentes que convierten un documento en su propia consulta de búsqueda
Capacitación universitaria del equipo interno
Inversión deliberada en formar al equipo de HV Labs en técnicas avanzadas de NLP y Machine Learning, con supervisión continua de personal académico de la UPV/EHU. La capacidad técnica se construye, no se subcontrata.
Adaptación de la recuperación de información al contexto real
En lugar de partir de una consulta explícita, el sistema utiliza el propio documento o las etiquetas asociadas por el usuario como referencia para buscar contenidos similares. Es una adaptación arquitectónica, no solo algorítmica.
Modelos vectorial y probabilístico complementarios
Trabajo con dos aproximaciones distintas: representación vectorial del documento como query y uso de etiquetas como referencia probabilística. Cada modelo se adapta mejor a un escenario distinto; la combinación amplía el alcance del sistema.
Validación contra producción real
El sistema se desplegó sobre Globedia, un portal con usuarios y tráfico real. La validación no fue solo técnica: incluyó la respuesta efectiva del usuario al contenido recomendado.
Por qué te importa
Lo que aprendemos aquí se aplica a cualquier organización que necesita estructurar conocimiento disperso para que el sistema lo entienda
Web Semántica no es solo un proyecto de portales de noticias. Es uno de los proyectos fundacionales del trabajo de HV Labs en NLP y recuperación de información, técnicas que después han sostenido casos como Portalia, J4Match y Gastroegutegia.
La inversión en formación interna es la inversión más rentable
Capacitarse con un grupo académico de referencia y aplicar lo aprendido sobre un portal real es una de las formas más sólidas de adquirir solvencia técnica duradera.
La técnica se adapta al problema, no al revés
Adaptar la recuperación de información clásica a un escenario donde la consulta no es explícita exige criterio arquitectónico. La sofisticación está en el ajuste, no en la complejidad por sí misma.
Validación en producción real, no en laboratorio
El criterio del usuario es el único juez relevante de un sistema de recomendación. Trabajar sobre un portal con tráfico real es la única manera de saber si el sistema funciona donde tiene que funcionar.
Casos de éxito
¿Tu operación tiene un problema parecido?
Cuéntanos el reto. En 30 minutos te decimos si tiene solución con lo que ya tienes.
"*" señala los campos obligatorios


