En esta entrega, hablaremos de las posibilidades de extraer conocimiento a partir del texto – pero no nos referimos al texto estructurado contenido en las bases de datos: hablamos del lenguaje natural, y particularmente, de lo que se consigna en las redes sociales. La minería de texto es un área propia de estudio, pues el procesamiento de la información no estructurada es mucho más amplio y complejo que aquél ejercido sobre las bases de datos.
Muchas
organizaciones están presentes, por ejemplo, en Facebook o Twitter, pero utilizan
la minería de datos sobre información procedente de los CRM (Customer
Relationship Management) para análisis de tendencias y opiniones, desperdiciando
así grandísimos niveles de información relacionada directamente en la Web. Por
esta razón, han surgido términos como “Opinion Mining”, partiendo de la
consideración del texto que circula en Internet como hechos u opiniones, o “Sentiment Analysis”, que representan factores
muy valiosos para equipos de mercadeo. En este terreno, se suelen usar palabras
clave para buscar –y algunos mecanismos extra para diferenciar cuándo se puede
tratar de sarcasmos, por ejemplo–. Las aplicaciones de estos métodos son muy amplias,
y representan un gran acercamiento a los clientes.
Otro
interesante campo de aplicación ha sido el uso para la salud pública: por
ejemplo, se han tomado palabras clave relacionadas con la influenza, para
identificar los lugares donde los virus aparece, a partir de Blogs. Y, aún más,
se ha buscado identificar qué comunidades sociales respectivas podrían ayudar a
distribuir información preventiva.
Las
apariciones de influenza también han sido supervisadas a través de Twitter, así
como la definición de los analgésicos más comunes consumidos por la gente, a
partir de las recomendaciones que hacen los usuarios allí.
Otros
ejemplos valiosos están en la predicción de éxito de las nuevas películas, a
partir de las menciones realizadas en Twitter, o la clasificación de los tipos
de música y tags de Last.Fm, entre otros.
Para esto, se pueden utilizar herramientas como Real Time Text Analytics ,
Statistica Text Miner (como extensión de Statistica Data Miner), o la anteriormente mencionada RapidMiner, entre otras.
Referencias
Boorman, Chris. Why Data Mining Is the Next Frontier for Social Media Marketing.
Liu, Bing. Opinion Mining. University of Illinois, Chicago. Consultado: 01.04.2012
http://www.cs.uic.edu/~liub/teach/cs583-spring-07/opinion-mining.pdf
Pang, Bo; Lee, Lillian. Cornell University. Opinion Mining and Sentiment Analysis. Consultado: 01.04.2012. http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf
Social Media, Data Mining & Machine Learning Blog. European University of Madrid. ACM TIST Special Issue On Search And Mining User-Generated Contents. Consultado: 01.04.2012.Pang, Bo; Lee, Lillian. Cornell University. Opinion Mining and Sentiment Analysis. Consultado: 01.04.2012. http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf
http://machine-learning.blogspot.com/
Schönhalz, David - Entrevista para Sozial-Media-Magazin. Opinion Mining und Sentiment-Analyse im Web 2.0. http://www.social-media-magazin.de/index.php/inhalt/opinion-mining-und-sentiment-analyse-im-web-20.html
Laurent, William. The Realities of Social Media Data Mining. Consultado: 01.04.2012.
Asur, Sitaram; Huberman, Bernardo. Predicting the Future with Social Media. Consultado: 01.04.2012. http://www.hpl.hp.com/techreports/2010/HPL-2010-53.pdf
Morik, Katharina. Data Mining for Social Networks. Consultado: 01.04.2012. http://www.mis.ethz.ch/teaching/FS09/FS09/documents/Data.Mining.for.Social.Networks