Opinion Mining & Sentiment Analysis — Inteligencia colectiva extraída de la red para anticipar comportamientos de mercado
Investigación aplicada en colaboración con el grupo IXA de la UPV/EHU para combinar procesamiento de lenguaje natural y aprendizaje automático sobre redes sociales, noticias y blogs, con el objetivo de extraer señales bursátiles a partir del sentimiento social.
El reto
El mercado reacciona a los datos. Pero también, y a veces más, a lo que la gente piensa de los datos.
Los movimientos bursátiles dependen tanto de los fundamentales económicos como del clima de opinión que rodea a cada valor. Hasta 2012, esa segunda capa —el sentimiento social agregado, expresado en redes sociales, foros, noticias y blogs— era prácticamente invisible a los sistemas de análisis financiero. La pregunta de fondo era si era posible extraerla en tiempo real, con criterio lingüístico, y traducirla en una señal accionable: optimismo o pesimismo agregado sobre un valor concreto.
"Opinion-Mining nos llevó a un terreno donde lingüística computacional y mercado se cruzan. Trabajamos con el grupo IXA de la UPV/EHU y aprendimos lecciones que siguen vigentes hoy: en NLP, el preprocesado del texto pesa tanto como el modelo."
Iker Barrena — Director de Hispavista Labs
Datos del proyecto
Consorcio
UPV/EHU (Grupo IXA), Hispavista Labs
Periodo
Abril 2012 – Marzo 2014 (24 meses)
Rol HVLabs
Pipeline de captura, etiquetado lingüístico y modelos de clasificación
Tweets etiquetados manualmente por cinco anotadores para evitar subjetividad
Timeline del proyecto
24 meses, del corpus histórico al sistema clasificatorio en cloud
El proyecto encadenó la construcción del corpus, la captura automática de fuentes y el desarrollo de modelos diferenciados para texto largo y texto corto, dos casuísticas con tratamientos óptimos distintos.
Conectores automáticos
Captura desde medios de prensa y redes sociales
Modelos para texto largo
NLP combinado con SVM en noticias completas
Modelos para texto corto
Limpieza léxica y clasificación bayesiana para tweets
Plataforma cloud
Servicio escalable accesible a usuarios externos
La solución
Cuatro componentes que convierten opiniones dispersas en una señal estructurada
Corpus etiquetado con rigor multianotador
Histórico de noticias de los últimos siete años etiquetado a mano por varios anotadores para evitar la subjetividad, junto con un corpus específico de veinte mil tweets etiquetado por cinco personas. El valor del sistema empieza por la calidad de los datos sobre los que aprende.
Conectores automáticos a fuentes heterogéneas
Captura continua desde medios de prensa, redes sociales, foros y blogs. La señal del sentimiento social no vive en un único canal: hay que ir a buscarla a todos los lugares donde se expresa.
Modelos diferenciados según la naturaleza del texto
NLP combinado con SVM para noticias largas, donde el contexto importa; clasificación bayesiana sobre texto limpio para tweets, donde el contexto es escaso y la limpieza léxica resulta determinante. La técnica adecuada para cada tipología, no la misma herramienta para todo.
Plataforma cloud para acceso escalable
Servicio diseñado desde el inicio para ejecutarse en la nube, con baja latencia y costes de computación contenidos. La inteligencia se ofrece como servicio, no como software a instalar.
Por qué te importa
Lo que aprendemos aquí se aplica a cualquier organización que necesite escuchar al ecosistema digital para tomar mejores decisiones
Opinion-Mining no es solo un proyecto financiero. Es la base sobre la que Hispavista Labs ha consolidado su solvencia en procesamiento de lenguaje natural, técnica que después ha aplicado en empleo, agroalimentación, industria y muchos otros dominios.
El preprocesado pesa tanto como el modelo
En NLP, especialmente en texto corto, la decisión sobre qué se limpia y qué se conserva determina la calidad del resultado más que la elección del algoritmo final. Una lección que sigue vigente diez años después.
Rigor en los datos antes que sofisticación en los modelos
Etiquetar 20.000 tweets a mano con cinco anotadores para evitar la subjetividad es la antítesis del atajo. El sistema se sostiene sobre la calidad del corpus, no sobre la opacidad del algoritmo.
Colaboración Universidad–Empresa con propósito
Trabajar con el grupo IXA de la UPV/EHU permitió combinar excelencia académica en lingüística computacional con orientación a producto. La investigación aplicada produce resultados cuando se aborda con criterio desde ambos lados.
Casos de éxito
¿Tu operación tiene un problema parecido?
Cuéntanos el reto. En 30 minutos te decimos si tiene solución con lo que ya tienes.
"*" señala los campos obligatorios


