Opinion-mining & sentiment analysis

Predicción del comportamiento bursátil.

Fechas

01/04/2012 –
31/03/2014

Participantes

Hispavista S.L., Hispavista Labs, UPV – EHU (Grupo IXA)

Tecnologías Aplicadas

Data Science
Devices

Líneas estratégicas

Sistemas inteligentes

El objetivo principal de este proyecto es el desarrollo de una herramienta que permita conocer las expectativas de subida y bajada de distintos valores bursátiles a través de las opiniones y los sentimientos de la gente recogidos en la Red.

Estas expectativas deberán ser en tiempo real, y tratarán de estimar si las acciones de las distintas compañías incrementarán o reducirán su valor en el Mercado. La recogida de estos datos se realizará a través de técnicas de procesamiento de lenguaje natural, lo cual añadirá un salto cualitativo al proyecto.

Además, de recoger la información de la Web, HispaVista ha de ser capaz de analizar las distintas opiniones, extraer el sentimiento social con respecto a un valor, y obtener la conclusión sobre la cotización de dicho valor, bien sea optimista o pesimista. Por otra parte, está recogida y análisis de toda la información ha de realizarse de manera que no tenga unos costes de computación elevados, y se extraigan los datos en un tiempo rápido. Asimismo, desde el punto de vista del usuario, la herramienta correrá en cloud, por lo que será una gran ventaja y un producto muy atractivo. Las fuentes de información para esta aplicación serán redes sociales, foros, noticias y blogs.

Actividades realizadas por el centro

Hispavista proporcionó a Hispavista Labs el histórico de noticias de labolsa.com de los últimos 7 años. Con esta base, se etiquetaron a mano todas las noticias por más de una persona apra evitar la subjetividad en la anotación.

Posteriormente se desarrollaron conectores para obtener información automáticamente de noticias relacionadas con el mundo de la bolsa, tanto de medios de prensa como de redes sociales.

Con estos corpus se procedió a analizarlos mediante la aplicación de técnicas de NLP.

Si bien para los textos completos se concluyó que la mejor aproximación era el NLP combinado con SVM como herramienta de clasificación de opiniones en noticias con gran volumen de texto, en el caso de noticias cortas, o tweets, se concluyó que lo determinante era la limpieza del tweet, es decir,  eliminar nombres de entidades, números, cifras, etc. para con lo restante, unas pocas palabras, aplicar técnicas de clasificación bayesiana que indiquen la polaridad de esas pocas palabras a las que ha quedado reducido un Tweet.

El corpus de Tweets con el que se trabajo era de 20.000 tweets etiquetados manualmente por 5 personas para evitar la subjetividad.

Más Casos de éxito

Colabora con nosotros

Conviértete en partner y colaboremos juntos para sacar adelante iniciativas innovadoras con futuro.

"*" señala los campos obligatorios

Este campo es un campo de validación y debe quedar sin cambios.

Synergies