Opinion Mining & Sentiment Analysis — Inteligencia colectiva extraída de la red para anticipar comportamientos de mercado

Investigación aplicada en colaboración con el grupo IXA de la UPV/EHU para combinar procesamiento de lenguaje natural y aprendizaje automático sobre redes sociales, noticias y blogs, con el objetivo de extraer señales bursátiles a partir del sentimiento social.

El reto

El mercado reacciona a los datos. Pero también, y a veces más, a lo que la gente piensa de los datos.

Los movimientos bursátiles dependen tanto de los fundamentales económicos como del clima de opinión que rodea a cada valor. Hasta 2012, esa segunda capa —el sentimiento social agregado, expresado en redes sociales, foros, noticias y blogs— era prácticamente invisible a los sistemas de análisis financiero. La pregunta de fondo era si era posible extraerla en tiempo real, con criterio lingüístico, y traducirla en una señal accionable: optimismo o pesimismo agregado sobre un valor concreto.

"Opinion-Mining nos llevó a un terreno donde lingüística computacional y mercado se cruzan. Trabajamos con el grupo IXA de la UPV/EHU y aprendimos lecciones que siguen vigentes hoy: en NLP, el preprocesado del texto pesa tanto como el modelo."

Iker Barrena — Director de Hispavista Labs

Datos del proyecto

Consorcio

UPV/EHU (Grupo IXA), Hispavista Labs

Periodo

Abril 2012 – Marzo 2014 (24 meses)

Rol HVLabs

Pipeline de captura, etiquetado lingüístico y modelos de clasificación

Tweets etiquetados manualmente por cinco anotadores para evitar subjetividad

Timeline del proyecto

24 meses, del corpus histórico al sistema clasificatorio en cloud

El proyecto encadenó la construcción del corpus, la captura automática de fuentes y el desarrollo de modelos diferenciados para texto largo y texto corto, dos casuísticas con tratamientos óptimos distintos.

Construcción del corpus

Histórico de 7 años de noticias, etiquetado multianotador

Conectores automáticos

Captura desde medios de prensa y redes sociales

Modelos para texto largo

NLP combinado con SVM en noticias completas

Modelos para texto corto

Limpieza léxica y clasificación bayesiana para tweets

Plataforma cloud

Servicio escalable accesible a usuarios externos

La solución

Cuatro componentes que convierten opiniones dispersas en una señal estructurada

Corpus etiquetado con rigor multianotador

Histórico de noticias de los últimos siete años etiquetado a mano por varios anotadores para evitar la subjetividad, junto con un corpus específico de veinte mil tweets etiquetado por cinco personas. El valor del sistema empieza por la calidad de los datos sobre los que aprende.

Conectores automáticos a fuentes heterogéneas

Captura continua desde medios de prensa, redes sociales, foros y blogs. La señal del sentimiento social no vive en un único canal: hay que ir a buscarla a todos los lugares donde se expresa.

Modelos diferenciados según la naturaleza del texto

NLP combinado con SVM para noticias largas, donde el contexto importa; clasificación bayesiana sobre texto limpio para tweets, donde el contexto es escaso y la limpieza léxica resulta determinante. La técnica adecuada para cada tipología, no la misma herramienta para todo.

Plataforma cloud para acceso escalable

Servicio diseñado desde el inicio para ejecutarse en la nube, con baja latencia y costes de computación contenidos. La inteligencia se ofrece como servicio, no como software a instalar.

Por qué te importa

Lo que aprendemos aquí se aplica a cualquier organización que necesite escuchar al ecosistema digital para tomar mejores decisiones

Opinion-Mining no es solo un proyecto financiero. Es la base sobre la que Hispavista Labs ha consolidado su solvencia en procesamiento de lenguaje natural, técnica que después ha aplicado en empleo, agroalimentación, industria y muchos otros dominios.

01

El preprocesado pesa tanto como el modelo

En NLP, especialmente en texto corto, la decisión sobre qué se limpia y qué se conserva determina la calidad del resultado más que la elección del algoritmo final. Una lección que sigue vigente diez años después.

02

Rigor en los datos antes que sofisticación en los modelos

Etiquetar 20.000 tweets a mano con cinco anotadores para evitar la subjetividad es la antítesis del atajo. El sistema se sostiene sobre la calidad del corpus, no sobre la opacidad del algoritmo.

03

Colaboración Universidad–Empresa con propósito

Trabajar con el grupo IXA de la UPV/EHU permitió combinar excelencia académica en lingüística computacional con orientación a producto. La investigación aplicada produce resultados cuando se aborda con criterio desde ambos lados.

Casos de éxito