domingo, 12 de febrero de 2012

La Minería de Datos,  Proceso y Patrones


Todo software construido para la minería de datos posee un proceso que tiene como objetivo captar información y conocimientos valiosos para el negocio a partir de los datos. Este proceso lo podemos dividir en seis pasos:


1. Selección del conjunto datos: Consiste en escoger el grupo de variables que se someterán a análisis 
2. Análisis de las propiedades de los datos: Se evalúan las propiedades en histogramas y diagramas de  dispersión, se detectan los valores típicos y atípicos, los valores nulos entre otras propiedades.
3. Transformación del conjunto de datos de entrada: Teniendo las propiedades de los datos, estos se preparan en forma, formato o significado para hacer el procesamiento que provee la técnica de minería.
4. Seleccionar y aplicar la técnica de minería de datos: Aquí se realiza el modelo predictivo de clasificación o segmentación que permite obtener la información  relevante según las necesidades del negocio.
5. Extracción de conocimiento: Una vez se tiene la técnica de minería de datos, se prepara  un modelo de conocimiento cuya función es representar los patrones de comportamiento que arrojan los valores de las variables o las relaciones ente ellas. 
6. Interpretación y evaluación de datos: Finalmente con el conocimiento extraído se procede a evaluar la información y a presentar interpretaciones apropiadas y relevantes al negocio.

Patrones


Un método de minería de datos muy útil en la industria y el mercado es la minería de datos por patrones. Esta técnica Involucra la búsqueda de patrones repetitivos en los datos, esto permite encontrar reglas de asociación muy útiles a la hora de formular juicios predictivos. 

Dos asombrosos ejemplos de esto se exponen a continuación. 






Hábitos de compra en supermercados
El ejemplo clásico pero que tiene mucho éxito es el de los supermercados. En ellos los patrones sirven para realizar la distribución de los productos detectando la relación de compra que existe entre ellos. El ejemplo citado es:

“Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas”   





Criminales
Otra aplicación de este método es la identificación de las redes o bandas criminales, sus líderes o integrantes clave y las relaciones entre ellos. Primero se construye una red de sospechosos que, por medio de los vínculos entre ellos en acciones y eventos y, teniendo en cuenta la periodicidad y otros factores patronales, se identifica al líder de la organización.  







Referencias
Licenciatura en Informática de la Universidad de Morón, Centro de Ingeniería de Software e Ingeniería del Conocimiento de la Escuela de Postgrado ITBA, Laboratorio de Sistemas Inteligentes de la Facultad de Ingeniería de la Universidad de Buenos Aires. Minería de Datos Aplicada a la Detección de Patrones Delictivos
en Argentina
http://www.itba.edu.ar/archivos/secciones/98JIISIC-08-31-39.pdf
(12 de Febrero de 2012)

Wikipedia. (11 de Febrero de 2012).Minería de datos.
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#cite_note-0
(12 de Febrero de 2012)

Wikipedia. (12 de Febrero de 2012). Data Mining.
http://en.wikipedia.org/wiki/Data_mining
(12 de Febrero de 2012)




sábado, 4 de febrero de 2012

Google Refine. Una herramienta libre para ser aplicada en la minería de datos.

Google refine es una herramienta poderosa empleada para trabajar con datos desordenados, con el fin de limpiarlos, ordenarlos,  y transfórmalos de un formato a otro sin importar el origen de los mismos, teniendo en cuenta que esta entre sus principales funciones el trabajo con datos que no se encuentren bien estructurados. Esta aplicación también nos posibilita encontrar las diferentes incoherencias que se pueden presentar al momento de almacenar o trabajar datos. Un ejemplo de esto, son las tablas en Excel cuando son cargadas manualmente, aquí indudablemente encontraremos errores poco relevantes pero que no se deben dejar a un lado, pues con el tiempo irán adquiriendo mayor complejidad, la cual aumentara la necesidad de darles una solución inmediata y efectiva. Es este el caso donde Google refine intercedería por nosotros, facilitándonos la tarea.

Las características específicas de este software son tan sencillas, que no se encontraran con dificultades al momento de dar uso a este, para ver lo sencillo que es, haremos llamado de una sola característica que será usada siempre. El programa instalara un sencillo servidor en el equipo local, al cual se accederá a través del navegador, desde el que se podrá seleccionar los datos con los que se quieran trabajar, claro está que dichos datos deben estar almacenados en el disco duro local.
Lo bueno de esta herramienta recae en que es de código abierto y no se tienen que cargar los datos en un servidor ajeno,  por esto es accesible para todo aquel que desee probarla, y pues teniendo en cuenta este detalle, a continuación les compartimos el link de descarga y algunos links que probablemente les serán de mucha ayuda al momento de dar inicio en este.

Descarga:            http://code.google.com/p/google-refine/wiki/Downloads?tm=2
Instalación:         http://code.google.com/p/google-refine/wiki/InstallationInstructions
Guía de usuario: http://code.google.com/p/google-refine/wiki/UserGuide


domingo, 29 de enero de 2012

IBM SPSS Modeler: eficiencia, confiabilidad. Casos de Éxito.


La primera herramienta que presentamos corresponde a una propuesta de IBM.  Esta solución de software ha llamado nuestra atención, pues promete un uso fácil de aprender, permite tener la visión de negocio permanentemente (sin preocuparse por la programación, por ejemplo),  y cuenta con el respaldo del gigante de la computación IBM. Adicionalmente, ha tenido ya una entrada significativa al mercado colombiano, con casos de éxito.

 Algunos puntos que en su página se comentan como ventajas son la agilidad en el proceso, la utilización óptima de los datos, y la amplia compatibilidad con otros sistemas. 

Los precios de esta herramienta van desde los €10.701 en Europa, en su edición IBM SPSS Modeler Professional. En Colombia, su distribuidor es Informese Ltda , empresa con 18 años de experiencia en el sector y sedes en Bogotá, Lima, Caracas y Quito. (Información del distribuidor y la herramienta aquí)

Casos de Éxito:

Un interesante caso de éxito de esta herramienta es el Standard Bank Argentina, en donde se utilizó la herramienta para adquirir clientes de manera inteligente para una tarjeta de crédito. A raíz de las palpables ganancias en el negocio, el banco amplió el uso de la solución, como lo comenta el gerente del área de Credits Analytics en el siguiente video:



En el contexto colombiano, se puede observar en este documento oficial que la Superintendencia Financiera de Colombia ha utilizado esta herramienta desde hace algunos años  (en este caso, se puede observar una aproximación al precio colombiano de la herramienta), y el Icetex también (como se puede ver en este informe de la entidad).

En conclusión, es una solución de software que promete la entrega de resultados que contribuyan a la inteligente toma de decisiones,  y que dado su precio y robustez está orientada a organizaciones con una considerable cantidad de datos, necesidades de inteligencia de negocios, y posiblemente dinero: es una excelente herramienta para organizaciones grandes.

martes, 24 de enero de 2012

Definición y Descripción del Alcance


Estimado lector: en este blog encontrará información sobre diferentes soluciones de software existentes, relacionadas con Data Mining. Semanalmente, se presentarán productos e información relacionada con este tema. Hay una creciente diversidad de productos, pero antes de reseñarlos, quisiéramos aclarar el concepto mencionado: ¿qué es, entonces, la “minería de datos”? ¿Para qué sirve?

La minería de datos (que es el resultado de un trabajo inicialmente interdisciplinario, con un gran componente estadístico) lleva a descubrir conocimiento que se encuentra en los datos: se busca identificar patrones contenidos en un conjunto de una base de datos, para que los usuarios puedan encontrar allí importantes puntos que lleven a la toma de decisiones. Por esta razón, Data Mining es un componente infaltable en la Inteligencia de Negocios. Con el uso de las herramientas de Data Mining, los usuarios (que no deben tener necesariamente conocimientos avanzados de computación) pueden identificar tendencias importantes en sus datos, que pueden ser utilizadas para mejorar sus utilidades, entre otros.

El software de Data Mining acude en general a una amplia cantidad de datos almacenados, aplica diferentes algoritmos a éstos, e identifica puntos considerables que puedan servir al usuario (y por estas razones, suele necesitar alguna capacidad en las máquinas, como mostraremos más adelante). Sin embargo, la posibilidad de encontrar información valiosa para las organizaciones es realmente considerable, pues generalmente se pueden sugerir de allí algunos aspectos inesperados.

La próxima semana comenzaremos a describir algunas soluciones de software de Data Mining. Esperamos que el tema sea de su agrado.