domingo, 19 de febrero de 2012

Entradas y salidas: ¿qué se analiza? ¿Cuál es el resultado?


Cuando hablamos de minería de datos, es claro que entra al análisis una gran cantidad de datos, y que se obtiene una representación de lo que no se conocía; es decir, se hace uso de la información recibida, para generar conocimiento. Cuando usted utilice software de minería de datos, observará que se cumplen los conceptos generales de los datos ingresados, y las representaciones obtenidas. Aquí le presentamos cómo entenderlos.

Básicamente, cuando se desea hacer un análisis mediante minería de datos, se formula una pregunta sobre lo que se desea conocer (un concepto, al que se puede llegar mediante diversos métodos). Teniendo esto claro, se introducen las instancias (es decir, los casos), con sus correspondientes atributos al software de Data Mining. Por ejemplo, en el mencionado caso de los pañales y la cerveza, podría pensarse que se decidió incluir todas las ventas del fin de semana del supermercado: siendo cada producto una instancia, sus atributos podrían incluir la hora en que fue comprado, y en qué factura se registró (por supuesto, entre otros).  

El software de data mining toma toda esta información, la agrupa y estudia según diferentes métodos (que explicaremos luego) y presenta la información según corresponda: puede presentar tablas, que es la forma más simple; modelos lineales (también llamados de regresión), árboles de decisión, reglas (estos dos pueden usarse alternativamente), representación basada en instancias (es decir, ubicando los ejemplos en un modelo), y clusters (cuando los conceptos incluyen la reunión de varias características).










Referencias:

Witten, Ian et al. Data Mining. Practical Machine Learning Tools and Techniques. Ed. Morgan Kaufmann. Burlington, USA.

The University of Edinburgh. Data Mining and Exploration. http://www.inf.ed.ac.uk/teaching/courses/dme/

Kantardzic, Mehmed. Data Mining: Concepts, Models, Methods, and Algorithms. IEEE Press.

Data Mining Software, Tools and Applications. http://www.the-data-mine.com/Software/DataMiningSoftware