domingo, 11 de marzo de 2012

El Valor de los Datos que Transitan en el Mundo

El uso de Business Intelligence fue una de las tendencias que marcaron la feria alemana CeBIT 2012, que culminó ayer, 10 de marzo. Allí participaron diferentes empresas de software, mostrando sus productos: el aprendizaje computacional y las técnicas de Data Mining están a la orden del día.

Como hemos mostrado en ocasiones anteriores, las herramientas de minería de datos proporcionan información muy valiosa para las empresas. Hasta ahora, hemos presentado algunos ejemplos de éxito y utilización en contextos típicos, como los datos locales en diferentes formatos, o Internet. Ahora es la oportunidad de ver algunos maravillosos ejemplos de uso de la minería de datos en contextos más amplios:

La construcción de una ciudad más inteligente

En el siguiente video, se muestra el uso de una aplicación (Intelligent Operations Center) para mejorar las diferentes operaciones de Zhenjiang, una ciudad turística de China. Por ahora, se puede desde allí monitorear el transporte: se toman datos de satélites, cámaras, sensores, entre otros, y se facilita la toma de decisiones mediante la identificación de tendencias. La aplicación en esta ciudad también proviene del aprendizaje en sistemas similares obtenido en otras ciudades (Río de Janeiro, New York, Estocolmo, Madrid, Singapur, entre otros)… y así, se busca identificar algunos patrones que faciliten la automatización de algunas operaciones en el futuro. Por supuesto, la minería de datos es la encargada de dilucidar estas tendencias, y consideramos que su uso en estos temas es decisivo y constituye un reto para el manejo de data mining en datos de gran cantidad y crecimiento (big data).

Monitoreando el uso de un carro electrónico

Elektroautos sind derzeit en vogue, so auch schon auf der jüngsten IAA in Frankfurt. (Bild: picture alliance / dpa / Arne Dedert)

Este tipo de vehículos está pasando por una importante fase de investigación y producción. Es el caso de 44 automóviles que se encuentran en circulación en Alemania, y que contienen “loggers” de datos autorizados, enviando información al Centro de Investigación en Inteligencia Artificial de Bremen: se envía la información de batería, posición, uso de la energía, velocidad, entre otros. Así, se generan “perfiles de movimiento”, que se deducen a partir de Data Mining: y todo, para establecer las necesidades y usos típicos de estos autos, y así definir nuevas metas de investigación, e incluso predecir su funcionamiento.

Seguridad Sanitaria

En un caso concreto, en Gales, existe una amplia cantidad de información acerca de las enfermedades animales de la región. Los factores de riesgo se han identificado, y se ha hecho una clasificación de estos para así mejorar las condiciones sanitarias. Todo esto, gracias al eficiente uso de diferentes técnicas de minería de datos: regresión, árboles de clasificación, y análisis de factores.

Applications of Data Mining in Computer Security

Seguridad Computacional

En el campo de la detección de intrusiones, la minería de datos puede jugar un factor decisivo, pues la cantidad de información que se manejan en las redes y sistemas es muy grande, haciendo que este tipo de problemas puedan ser estudiados mediante el software que aquí estudiamos: mediante DM es posible identificar aquellas anomalías que puedan sugerir las intrusiones, y el análisis de las implicaciones que éstas han tenido.

Referencias:

IBM. A Smarter Planet Project: Building an Operating System for Cities.
http://asmarterplanet.com/blog/2012/02/building-an-operating-system-for-cities.html

IBM: Calabrese, Francisco. Smart Cities - How can Data Mining and Optimization shape Future Cities?
http://www.cost.eu/download/Calabrese

Deutschlandfunk: Kloiber, Manfred. Auto als Datenquelle.
http://www.dradio.de/dlf/sendungen/forschak/1698145/

Ortiz-Peláez, Ángel. Use of data mining techniques to investigate disease risk classification as a proxy for compromised biosecurity of cattle herds in Wales

http://www.biomedcentral.com/1746-6148/4/24

Barbara, Daniel. Applications of Data Mining in Computer Security.
http://www.springer.com/computer/theoretical+computer+science/book/978-1-4020-7054-9

PresseBox. Teradata auf der CeBIT 2012: Datenanalysen stehen im Rampenlicht
http://www.pressebox.de/pressemeldungen/teradata-deutschland/boxid/487193

lunes, 5 de marzo de 2012

El Valor de los Datos que Transitan Internet

La minería Web (Web Mining o Webmining) es la metodología de recolección de información en la WEB. Por medio de minería de datos, se extrae información del contenido de las páginas, de los enlaces y de los registros de navegación.

En ésta, la era de la información la minería de datos en la WEB se hace protagonista.

Al cierre del 2011 se alcanza la gigantesca cifra de 2.1 mil millones de usuarios de internet en el mundo, además los usuarios de internet en los diferentes continentes son entre el 11% y el 78% de la población total y ahora con el auge del internet móvil, esta cifra sigue subiendo. Cada uno de estos usuarios día a día van dejando un rastro importante de datos que se convierten, para muchos, en el oro del momento.

Las empresas que mejor convierten los datos en información relevante para el negocio y ésta a su vez en conocimiento útil para la innovación, son las empresas que lideran los mercados. Cada día, muchos sitios de internet están recogiendo datos, haciendo clasificaciones y encontrando patrones por medio de técnicas de minería de datos (WEB Mining), sacando provecho de la información implícita que dejamos. Hay tres objetivos claves en la minería WEB:

Minería del uso de la Web

Es el proceso mediante el cual se extrae información del historial de los registros del servidor con el fin de descubrir cómo y para qué usa la web e identificar lo que los usuarios buscan en Internet.

Minería del contenido de la Web

Con este método se extraen e integran los datos útiles, información y conocimiento de los contenidos de la Web tales como imágenes, audio, texto, video, etc.

Minería de la estructura de la Web

En este proceso se utiliza la teoría de grafos para analizar el nodo y las estructuras de conexión de un sitio web.

Empresas poderosas por la información que poseen, como Google, FaceBook, Micosoft, Yahoo, Apple entre otros, hacen uso de la minería Web; esto les permite, por ejemplo, mejorar el acierto en la publicidad que aparece en las páginas al clasificar a los usuarios de acuerdo las características encontradas por medio de sus datos; identificar preferencias u opiniones de los clientes oportunamente a través del reconocimiento de patrones en las búsquedas o compras. En internet es fácil encontrar datos generales como la ubicación o la hora que pueden ayudar a crear estadísticas relevantes a los negocios.

Toda esta información, en un alto porcentaje, es usada para encontrar clientes potenciales en internet para todo tipo de productos y servicios.

Ventajas

Muchas son las ventajas que provee esta tecnología, influye en que aumenten los volúmenes en el comercio, aporta en la aparición de nuevas iniciativas, productos y servicios, provoca mas innovación, permite un mejor servicio al cliente, apoya el control de la autoridades por medio de la predicción de actividades delictivas. En líneas generales, si los datos y la información son “el oro del momento”, la minería Web es la herramienta para extraerlo.

Polémicas

Como todo no es color de rosa, cabe mencionar que entre todo este bum de la información en internet, hay algunas polémicas que surgen del manejo que se le da a la información. La que más ruido hace es la que se refiere a la información personal y al derecho a la privacidad. Existen empresas que se dedican a crear y vender a terceros clasificaciones y bases con los datos de los usuarios que inocentemente transitan en internet. Mucha de la información personal de los usuarios de internet se encuentra suelta y sin restricciones, ¿Hasta qué punto será que es tolerable su uso?

Referencias

Wikipedia. (4 de Marzo de 2012). Web Mining

http://en.wikipedia.org/wiki/Web_mining

(4 de Marzo de 2012)

NAP. Comportamiento del trafico NAP en Colombia

http://www.nap.com.co/

(4 de Marzo de 2012)

Pingdom. (17 de Enero de 2012). Internet 2011 in numbers

http://royal.pingdom.com/2012/01/17/internet-2011-in-numbers/

(4 de Marzo de 2012)

Jorge Enrique Mújica, LC. (13 de Septiembre de 2010). El negocio de la información personal en Internet

http://www.forumlibertas.com/frontend/forumlibertas/noticia.php?id_noticia=17876&id_seccion=33

(4 de Marzo de 2012)

Jessica E. Vascellaro. (12 de Agosto de 2010). La publicidad personalizada y el dilema de Google sobre privacidad

http://online.wsj.com/article/SB128139814321225965.html?mod=wsj_share_twitter

(4 de Marzo de 2012)

Time Magazine. Joel Stain(10 de Marzo de 2011). How Companies Now Know Everything About You

http://www.time.com/time/magazine/article/0,9171,2058205-1,00.html

(4 de Marzo de 2012)

domingo, 26 de febrero de 2012

Data Mining bajo una solución Open-Source: RarpidMiner

Solución que según una encuesta realizada por KDnuggets (periódico especializado en Data Mining), se ha posicionado en los primeros lugares de la lista de las soluciones de software de minería de datos y herramientas analíticas utilizadas para proyectos reales en 2009 y 2010. Siendo así líder mundial de los sistemas de exploración de datos y texto de código abierto, con la posibilidad de ser encontrado como una aplicación independiente para el análisis de datos y como un motor de minería.

Mayo de 2009 segundo lugar depues de SPSS RASW. Mas info aqui.

Mayo de 2010 encabezando la lista con 345 votos de 912. Mas info aqui.

Es una solución escrita en lenguaje de programación Java que se encuentra distribuida bajo licencia de código abierto ofreciéndonos la minería de datos, bajo las modalidades de extracción, transformación y carga de datos (ETL), procesamiento, modelación, evaluación y despliegue de datos.

Con esta solución, lo que se obtiene es una óptima exploración de datos, simplificación de la construcción de procesos de análisis, evaluación de diferentes enfoques y la combinación de pre-procesamiento. Adicionándole la posibilidad de utilizar más de 400 operadores de minería de datos; combinándolos arbitrariamente. Configurado por archivos XML que son fácilmente creados con una interfaz gráfica (GUI).

Características principales:

Gran colección de algoritmos para la minería de datos (decisión trees and self-organization maps).
Superposición de los histogramas, diagramas de árbol y gráficos 3D de dispersión.
Variedad de plugins.

Campos de aplicación:

Industria electrónica.
Industria de energía.
Industria automotriz.
Industria farmacéutica.
Comercio.
Aviación.
Telecomunicaciones.
Banca y seguros.
Producción.
IT.
Investigación de mercado.

Ejemplos de aplicación:

Exploración de datos en Excel.
Construcción de flujos de trabajo personalizados del análisis de datos.
Es posible llamar las funciones de RapidMiner desde programas escritos en otros lenguajes.

A continuación les compartimos el link de descarga, algunos links que probablemente les serán de mucha ayuda al momento de dar inicio en este y un video que incluye una ligera demostración de como importar datos a RapidMiner.

Descarga:   http://rapid-i.com/content/view/26/82/
Descripción de Operación:   http://rapid-i.com/content/view/12/34/
Imágenes:    http://rapid-i.com/content/view/9/25/

Importing Data into RapidMiner (Data Mining and Predictive Analytics System).

Referencias:

domingo, 19 de febrero de 2012

Entradas y salidas: ¿qué se analiza? ¿Cuál es el resultado?

Cuando hablamos de minería de datos, es claro que entra al análisis una gran cantidad de datos, y que se obtiene una representación de lo que no se conocía; es decir, se hace uso de la información recibida, para generar conocimiento. Cuando usted utilice software de minería de datos, observará que se cumplen los conceptos generales de los datos ingresados, y las representaciones obtenidas. Aquí le presentamos cómo entenderlos.

Básicamente, cuando se desea hacer un análisis mediante minería de datos, se formula una pregunta sobre lo que se desea conocer (un concepto, al que se puede llegar mediante diversos métodos). Teniendo esto claro, se introducen las instancias (es decir, los casos), con sus correspondientes atributos al software de Data Mining. Por ejemplo, en el mencionado caso de los pañales y la cerveza, podría pensarse que se decidió incluir todas las ventas del fin de semana del supermercado: siendo cada producto una instancia, sus atributos podrían incluir la hora en que fue comprado, y en qué factura se registró (por supuesto, entre otros).

El software de data mining toma toda esta información, la agrupa y estudia según diferentes métodos (que explicaremos luego) y presenta la información según corresponda: puede presentar tablas, que es la forma más simple; modelos lineales (también llamados de regresión), árboles de decisión, reglas (estos dos pueden usarse alternativamente), representación basada en instancias (es decir, ubicando los ejemplos en un modelo), y clusters (cuando los conceptos incluyen la reunión de varias características).

Referencias:

Witten, Ian et al. Data Mining. Practical Machine Learning Tools and Techniques. Ed. Morgan Kaufmann. Burlington, USA.

The University of Edinburgh. Data Mining and Exploration. http://www.inf.ed.ac.uk/teaching/courses/dme/

Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms. IEEE Press.

Data Mining Software, Tools and Applications. http://www.the-data-mine.com/Software/DataMiningSoftware

domingo, 12 de febrero de 2012

La Minería de Datos, Proceso y Patrones

Todo software construido para la minería de datos posee un proceso que tiene como objetivo captar información y conocimientos valiosos para el negocio a partir de los datos. Este proceso lo podemos dividir en seis pasos:

1. Selección del conjunto datos: Consiste en escoger el grupo de variables que se someterán a análisis

2. Análisis de las propiedades de los datos: Se evalúan las propiedades en histogramas y diagramas de dispersión, se detectan los valores típicos y atípicos, los valores nulos entre otras propiedades.

3. Transformación del conjunto de datos de entrada: Teniendo las propiedades de los datos, estos se preparan en forma, formato o significado para hacer el procesamiento que provee la técnica de minería.

4. Seleccionar y aplicar la técnica de minería de datos: Aquí se realiza el modelo predictivo de clasificación o segmentación que permite obtener la información relevante según las necesidades del negocio.

5. Extracción de conocimiento: Una vez se tiene la técnica de minería de datos, se prepara un modelo de conocimiento cuya función es representar los patrones de comportamiento que arrojan los valores de las variables o las relaciones ente ellas.

6. Interpretación y evaluación de datos: Finalmente con el conocimiento extraído se procede a evaluar la información y a presentar interpretaciones apropiadas y relevantes al negocio.

Patrones

Un método de minería de datos muy útil en la industria y el mercado es la minería de datos por patrones. Esta técnica Involucra la búsqueda de patrones repetitivos en los datos, esto permite encontrar reglas de asociación muy útiles a la hora de formular juicios predictivos.

Dos asombrosos ejemplos de esto se exponen a continuación.

Hábitos de compra en supermercados

El ejemplo clásico pero que tiene mucho éxito es el de los supermercados. En ellos los patrones sirven para realizar la distribución de los productos detectando la relación de compra que existe entre ellos. El ejemplo citado es:

“Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas”

Criminales

Otra aplicación de este método es la identificación de las redes o bandas criminales, sus líderes o integrantes clave y las relaciones entre ellos. Primero se construye una red de sospechosos que, por medio de los vínculos entre ellos en acciones y eventos y, teniendo en cuenta la periodicidad y otros factores patronales, se identifica al líder de la organización.

Referencias
Licenciatura en Informática de la Universidad de Morón, Centro de Ingeniería de Software e Ingeniería del Conocimiento de la Escuela de Postgrado ITBA, Laboratorio de Sistemas Inteligentes de la Facultad de Ingeniería de la Universidad de Buenos Aires. Minería de Datos Aplicada a la Detección de Patrones Delictivos
en Argentina
http://www.itba.edu.ar/archivos/secciones/98JIISIC-08-31-39.pdf
(12 de Febrero de 2012)

Wikipedia. (11 de Febrero de 2012).Minería de datos.
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#cite_note-0
(12 de Febrero de 2012)

Wikipedia. (12 de Febrero de 2012). Data Mining.
http://en.wikipedia.org/wiki/Data_mining
(12 de Febrero de 2012)

sábado, 4 de febrero de 2012

Google Refine. Una herramienta libre para ser aplicada en la minería de datos.

Google refine es una herramienta poderosa empleada para trabajar con datos desordenados, con el fin de limpiarlos, ordenarlos, y transfórmalos de un formato a otro sin importar el origen de los mismos, teniendo en cuenta que esta entre sus principales funciones el trabajo con datos que no se encuentren bien estructurados. Esta aplicación también nos posibilita encontrar las diferentes incoherencias que se pueden presentar al momento de almacenar o trabajar datos. Un ejemplo de esto, son las tablas en Excel cuando son cargadas manualmente, aquí indudablemente encontraremos errores poco relevantes pero que no se deben dejar a un lado, pues con el tiempo irán adquiriendo mayor complejidad, la cual aumentara la necesidad de darles una solución inmediata y efectiva. Es este el caso donde Google refine intercedería por nosotros, facilitándonos la tarea.

Las características específicas de este software son tan sencillas, que no se encontraran con dificultades al momento de dar uso a este, para ver lo sencillo que es, haremos llamado de una sola característica que será usada siempre. El programa instalara un sencillo servidor en el equipo local, al cual se accederá a través del navegador, desde el que se podrá seleccionar los datos con los que se quieran trabajar, claro está que dichos datos deben estar almacenados en el disco duro local.
Lo bueno de esta herramienta recae en que es de código abierto y no se tienen que cargar los datos en un servidor ajeno, por esto es accesible para todo aquel que desee probarla, y pues teniendo en cuenta este detalle, a continuación les compartimos el link de descarga y algunos links que probablemente les serán de mucha ayuda al momento de dar inicio en este.

Descarga: http://code.google.com/p/google-refine/wiki/Downloads?tm=2
Instalación: http://code.google.com/p/google-refine/wiki/InstallationInstructions
Guía de usuario: http://code.google.com/p/google-refine/wiki/UserGuide

domingo, 29 de enero de 2012

IBM SPSS Modeler: eficiencia, confiabilidad. Casos de Éxito.

La primera herramienta que presentamos corresponde a una propuesta de IBM. Esta solución de software ha llamado nuestra atención, pues promete un uso fácil de aprender, permite tener la visión de negocio permanentemente (sin preocuparse por la programación, por ejemplo), y cuenta con el respaldo del gigante de la computación IBM. Adicionalmente, ha tenido ya una entrada significativa al mercado colombiano, con casos de éxito.

Algunos puntos que en su página se comentan como ventajas son la agilidad en el proceso, la utilización óptima de los datos, y la amplia compatibilidad con otros sistemas.

Los precios de esta herramienta van desde los €10.701 en Europa, en su edición IBM SPSS Modeler Professional. En Colombia, su distribuidor es Informese Ltda , empresa con 18 años de experiencia en el sector y sedes en Bogotá, Lima, Caracas y Quito. (Información del distribuidor y la herramienta aquí)

Casos de Éxito:

Un interesante caso de éxito de esta herramienta es el Standard Bank Argentina, en donde se utilizó la herramienta para adquirir clientes de manera inteligente para una tarjeta de crédito. A raíz de las palpables ganancias en el negocio, el banco amplió el uso de la solución, como lo comenta el gerente del área de Credits Analytics en el siguiente video:

En el contexto colombiano, se puede observar en este documento oficial que la Superintendencia Financiera de Colombia ha utilizado esta herramienta desde hace algunos años (en este caso, se puede observar una aproximación al precio colombiano de la herramienta), y el Icetex también (como se puede ver en este informe de la entidad).

En conclusión, es una solución de software que promete la entrega de resultados que contribuyan a la inteligente toma de decisiones, y que dado su precio y robustez está orientada a organizaciones con una considerable cantidad de datos, necesidades de inteligencia de negocios, y posiblemente dinero: es una excelente herramienta para organizaciones grandes.