domingo, 6 de mayo de 2012


NUESTRA ÚLTIMA PUBLICACIÓN – LA NASA Y LA MINERÍA DE DATOS EN FAVOR DE LA AVIACIÓN


Como bien hemos hablado durante la vigencia de este blog, los software de minería de datos son herramientas muy útiles al servicio de los negocios y la sociedad que entregan ventajas competitivas y de anticipación.  


La NASA  está investigando cómo, por medio de la minería de datos, se pueden prever problemas aeronáuticos en pro de la aviación segura. Las aeronaves modernas producen volúmenes enormes de datos  y la NASA está buscando formas de encontrar información entre todos esos datos que permita prevenir accidentes. Actual mente se usa la minería de datos en aviación pero aún hay trabajo por hacer, hoy cuando cae un avión, por medio de la caja negra y otras fuentes de almacenamiento de datos es posible encontrar las causas que produjeron el accidente, es por eso que se le ve potencial a este programa para encontrar automática y oportunamente problemas solucionables a través de la minería de la detección de anomalías, para evitar desastres y hacer más seguro el transporte aéreo.



Aquí les dejo un video de un programa documental que desglosa el tema.

Disclose.tv. (Mar 29 de 2012). The Leading Edge: Nasa Data Mining Aviation Data

(Mayo 06 de 2012).



 Agradecemos a nuestros visitantes por seguirnos durante este viaje a través de la minería de datos, sus características, bondades y curiosidades.

Agradecemos al grupo de Soluciones de Software de la facultad de Ingeniería de Sistemas de la Escuela Colombiana de Ingeniería Julio Garavito y el Ingeniero Mauricio Martínez Franki. 

domingo, 29 de abril de 2012

R como una herramienta para la minería de datos.
















Es una de las herramientas más utilizadas de minería de datos en aplicaciones científicas y empresariales, entre las decenas de software de minería comercial y de código abierto de datos. Es gratuito y ampliable. Es parte del proyecto GNU y su código fuente está escrito principalmente en C. Está disponible libremente bajo la Licencia Pública General de GNU y utiliza una interfaz de línea de comandos, sin embargo, varias interfaces gráficas de usuario están disponibles para su uso.


Lo que hace tan útil  a R y lo que ayuda con la explicación de su rápida aceptación, es que los estadísticos, ingenieros y científicos pueden mejorar el código del software o escribir variaciones para tareas específicas. 


Cerca de 1.600 paquetes diferentes, residen en uno de los muchos sitios web dedicados, aumentando su cantidad de manera exponencial. Por ejemplo uno de los  paquetes encontrados en la web, es el paquete  llamado BiodiversityR, que nos ofrece una interfaz gráfica destinada a realizar los cálculos de las tendencias ambientales con mayor facilidad. Aparte de análisis de estados ambientales, R nos ofrece una gran variedad de áreas en las que se puede utilizar con el fin de obtener tendencias o información importante de los diversos datos obtenidos, almacenados y analizados. Entre estas áreas se pueden encontrar las que siguen:


* Finanzas
* Venta al por menor
* Seguros
* Telecomunicaciones
* Gobierno
* Crimen y Seguridad
* Mercado de Valores
* Bienestar Social
* Medios de Comunicación Social
* Deportes
* Medicina y Salud
* Educación
* Transporte
* Meteorología
* Medio ambiente
* Fabricación
* Análisis de Datos Espaciales
* Computación Científica



Paginas de referencia:

  • http://www.rdatamining.com/books/book2
  • http://en.wikipedia.org/wiki/Data_mining
  • http://en.wikipedia.org/wiki/R_%28programming_language%29

domingo, 22 de abril de 2012

La importancia del contexto empresarial y tecnológico. Ejemplo: Pentaho Business Analytics.






Antes de presentar esta herramienta que por muchas razones es hoy famosa, quisiéramos dejar una reflexión respecto a la minería de datos en el contexto empresarial: ¿por qué es conveniente utilizarla?, ¿le sirve a todas las empresas?, ¿qué se gana al “minar” los datos?, ¿y cómo se diseña un proceso de minería de datos?
Un primer acercamiento a estos interrogantes que justifican el estudio de esta solución de software es precisamente pensar si usted conoce realmente las necesidades de su organización. La minería de datos, por sí sola, no constituye una ganancia, y su utilidad estará dada en la medida en que se utilice de manera ajustada a la empresa, pues la inversión en tiempo y recursos de todo tipo puede ser realmente alta.
Una parte importante de la selección es también pensar que la solución adquirida sea útil de acuerdo a las posibles tendencias tecnológicas. Basándonos en esto, y en las tendencias tecnológicas sugeridas por Gartner Inc., sugerimos que sería útil que las aplicaciones soporten el manejo de grandes cantidades de información (Big Data), que tengan integración en dispositivos móviles, que funcionen también en la nube, y por supuesto, que apoyen los análisis de próxima generación.  


  

Dicho esto, presentamos hoy una aplicación que integra diversos aspectos para analizar el negocio en general, y que podría estar a la vanguardia en temas tecnológicos si nos regimos por las ideas mencionadas: Pentaho Business Analytics, una interesante herramienta que permite hacer todo tipo de reportes, tableros de mando, análisis / minería de datos, soporte para iPad, integración y calidad de los datos, administración centralizada y despliegue en la nube. Todo esto, con un entorno bastante amigable, y disponible en diferentes versiones según las necesidades de su empresa. A continuación, se presenta el video que muestra las características de este software, que si bien va más allá de la minería de datos como solución única, se acerca de manera integral al contexto empresarial y abre paso a la inteligencia de negocios.









Referencias:


Notas de Clase. Profesor Mauricio Martínez, Soluciones de Software, Escuela Colombiana de Ingeniería, abril de 2012.


Pentaho Business Analytics. http://www.pentaho.com/explore/pentaho-business-analytics/

PcWorld. Tendencias Estratégicas para el 2012 por Gartner Inc. http://www.pcworld.com.mx/Articulos/19396.htm

domingo, 15 de abril de 2012


EMPECEMOS A MINAR DATOS DE VERDAD VERDAD

Con el aumento de los usuarios de Internet en todo el mundo en los últimos años, también ha aumentado el mercado virtual, es decir que cada vez hay más personas que compran por Internet y así mismo más tiendas virtuales que ofrecen  más productos.  Por lo anterior, el tema de la optimización automática de precios en el comercio electrónico está creciendo en importancia. Esto se debe en particular al hecho de que se pueden lograr aumentos significativos en los márgenes de utilidad utilizando estrategias inteligentes para adjudicar precios. Además de los algoritmos estándar diseñados y utilizados básicamente para la optimización de los precios de cada producto en las tiendas en línea, también se desarrollan algoritmos especiales que se utilizan para asuntos tales como la venta de los productos combinados o de la venta rápida de bienes perecederos.





 
Desde el 2002 se viene realizando un certamen anual en Alemania (Data Mining Cup) que premia al mejor grupo de estudiantes desarrolladores de minería de datos. Este evento da oportunidades para foguearse en la práctica de minar datos reales y aplicar sus beneficios en un ejercicio real. Este año el concurso tiene algunos objetivos principales: la descripción de dependencias entre datos, la predicción de ítems de venta y la optimización de beneficios de un portal de ventas en línea. En el año en curso abrieron  el registro de participantes el 01 de marzo, comenzó la competencia con la publicación de las tareas el  03 de abril, la competencia esta en curso y se espera la presentación de los resultados el 15 de mayo, fecha en la que se da por terminado el concurso. La premiación tendrá lugar en Berlín junto con una conferencia internacional de temas de Data Mining durante los días 26 y 27 de junio. Los premios van de 500 a 2000 euros y viajes para  algunos de los integrantes de equipos finalistas a la ceremonia de premiación.



 Los organizadores ofrecen la información del ejercicio de la competencia, por lo cual, si estos temas le son de interés y desea realizar el ejercicio por su cuenta, en este link puede encontrar la especificación.



Por la trayectoria del campeonato y las empresas que participan y lo respaldan,  hacer parte puede ser importante tanto como vitrina como medio de aprendizaje y experiencia, por eso merece pertenecer a las consideraciones para el año que viene.

Referencias

Pagina oficial del concurso Data Mining Cup.
(15 de abril de 2012)














domingo, 8 de abril de 2012

Fases de la Mineria de Datos




Cualquier proyecto de Minería de Datos, independiente de su enfoque y de las técnicas de extracción utilizadas al transcurso del proceso, debe atravesar por una serie de fases que hace que el proceso sea exitoso desde que inicia hasta que culmina. Dando así un análisis completo y efectivo para tomar una decisión correcta.


Las siguientes son las fases que normalmente abarca un proyecto de Minería de Datos:


  • Filtrado de Datos.
  • Selección de Variables.
  • Extracción de Conocimiento.
  • Interpretación y Evaluación.

Imagen 1: Fases dentro de un proyecto de Minería de Datos


  • Filtrado de Datos
En muchos casos el formato de los datos fuente no son adecuadamente ligeros para ser tratados en estos procesos, por tal motivo el objetivo en esta fase, es filtrar los datos de tal manera que se eliminen todos los valores incorrectos, todos los valores no validos y desconocidos, reduciendo así el número de valores posibles para ser tratados en un  proceso como lo es el proceso de Data Mining. 

  • Selección de Variables.
Para reducir el tamaño de los datos elegidos, se deben establecer las características correspondientes y necesarias para ser aplicadas a la selección correcta de los datos. Asi tener las variables que influyen con mas fuerza en el problema a solucionar; los métodos utilizados para la selección de las características son los siguientes:

    • Aquellos basados en la eleción de los mejores atributos del problema.
    • Aquellos que buscan variables independientes mediante pruebas de sensibilidad, algoritmos de distancia. 
  • Extracción de Conocimiento
"Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento,
que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables".

  • Interpretación y Evaluación
Luego de obtener el modelo final, se debe validar las conclusiones obtenidas al finalizaar el proceso de extracción. Se debe comprobar que las conclusiones arrojadas son validas, suficientes y satisfactorias. 
Podemos tener el caso, en el que nos resulten dos o mas modelos, utilizando distintas técnicas de extracción. En estos casos se comprobaran los modelos en busca del que solucione mejor el problema y en caso en que ninguno de los modelos obtenidos de la solución adecuada al problema, se debe alterar uno de los anteriores pasos.


Referencias:




domingo, 1 de abril de 2012

Text Mining y Redes Sociales







En esta entrega, hablaremos de las posibilidades de extraer conocimiento a partir del texto – pero no nos referimos al texto estructurado contenido en las bases de datos: hablamos del lenguaje natural, y particularmente, de lo que se consigna en las redes sociales. La minería de texto es un área propia de estudio, pues el procesamiento de la información no estructurada es mucho más amplio y complejo que aquél ejercido sobre las bases de datos.




Muchas organizaciones están presentes, por ejemplo, en Facebook o Twitter, pero utilizan la minería de datos sobre información procedente de los CRM (Customer Relationship Management) para análisis de tendencias y opiniones, desperdiciando así grandísimos niveles de información relacionada directamente en la Web. Por esta razón, han surgido términos como “Opinion Mining”, partiendo de la consideración del texto que circula en Internet como hechos u opiniones, o “Sentiment Analysis”, que representan factores muy valiosos para equipos de mercadeo. En este terreno, se suelen usar palabras clave para buscar –y algunos mecanismos extra para diferenciar cuándo se puede tratar de sarcasmos, por ejemplo–. Las aplicaciones de estos métodos son muy amplias, y representan un gran acercamiento a los clientes.

Otro interesante campo de aplicación ha sido el uso para la salud pública: por ejemplo, se han tomado palabras clave relacionadas con la influenza, para identificar los lugares donde los virus aparece, a partir de Blogs. Y, aún más, se ha buscado identificar qué comunidades sociales respectivas podrían ayudar a distribuir información preventiva. 


Las apariciones de influenza también han sido supervisadas a través de Twitter, así como la definición de los analgésicos más comunes consumidos por la gente, a partir de las recomendaciones que hacen los usuarios allí.

Otros ejemplos valiosos están en la predicción de éxito de las nuevas películas, a partir de las menciones realizadas en Twitter, o la clasificación de los tipos de música y tags de Last.Fm, entre otros. 


Para esto, se pueden utilizar herramientas como Real Time Text Analytics , Statistica Text Miner (como extensión de Statistica Data Miner), o la anteriormente mencionada RapidMiner, entre otras.

Referencias

Boorman, Chris. Why Data Mining Is the Next Frontier for Social Media Marketing.

Jensen, David; Neville, Jennifer. Data Mining in Social Networks. University of Massachusetts. Consultado: 01.04.2012. http://www.cs.purdue.edu/homes/neville/papers/jensen-neville-nas2002.pdf

Liu, Bing. Opinion Mining. University of Illinois, Chicago. Consultado: 01.04.2012
http://www.cs.uic.edu/~liub/teach/cs583-spring-07/opinion-mining.pdf


Pang, Bo; Lee, Lillian. Cornell University. Opinion Mining and Sentiment Analysis. Consultado: 01.04.2012. http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf
Social Media, Data Mining & Machine Learning Blog. European University of Madrid. ACM TIST Special Issue On Search And Mining User-Generated Contents. Consultado: 01.04.2012.
http://machine-learning.blogspot.com/

Schönhalz, David - Entrevista para Sozial-Media-Magazin. Opinion Mining und Sentiment-Analyse im Web 2.0. http://www.social-media-magazin.de/index.php/inhalt/opinion-mining-und-sentiment-analyse-im-web-20.html

Laurent, William. The Realities of Social Media Data Mining. Consultado: 01.04.2012. 

Asur, Sitaram; Huberman, Bernardo. Predicting the Future with Social Media. Consultado: 01.04.2012. http://www.hpl.hp.com/techreports/2010/HPL-2010-53.pdf

Morik, Katharina. Data Mining for Social Networks. Consultado: 01.04.2012. http://www.mis.ethz.ch/teaching/FS09/FS09/documents/Data.Mining.for.Social.Networks

lunes, 26 de marzo de 2012


Qué Hace un Software  Para Minería de Datos DMS


Las empresas almacenan una gran cantidad de datos que ocultan información importante, aprovechar esa información es vital para las compañías de la era de la información.
La minería de datos permite descubrir  automáticamente información potencialmente útil a partir de grandes cantidades de datos.

Existen dos clases de métodos generales para la minería de datos:
Los métodos de predicción de comportamientos, los cuales se usan para adelantarse a los resultados con una buena probabilidad de acertar; y los métodos de descripción de comportamientos que sirven para conocer los comportamientos en los acontecimientos relativos al negocio y poder tomar ventajas estratégicas.

Clasificación. Es un método de predicción de comportamientos que utiliza la definición de categorías. Como ejemplo se pueden clasificar las personas como Hombres y Mujeres y se puede predecir de estas categorías que los hombres compran licor, y que las mujeres compran zapatos.




Regresión. Es otro método de predicción de comportamientos cuyos elementos son los datos estadísticos, se efectúan sobre éstos, cálculos de regresión para identificar tendencias y poder predecir furas conductas.






Detección de desviaciones. Este también es un método de predicción de comportamientos, su foco está en revelar eventos que se salen de lo normal para efectuar una predicción de algún suceso.

Agrupación (Clustering). Este es un método  de descripción de comportamientos, su objetivo es agrupar en conjuntos los elementos similares en algún sentido para poder  describir sus características.










Descubrimiento de reglas de asociación. Es otro método para la descripción de comportamientos y consiste en encontrar las dependencias repetitivas en los acontecimientos descritos por los datos. El ejemplo clásico es que en los supermercados, las parejas jóvenes, los viernes compran cerveza y pañales.

   





Descubrimiento de patrones secuenciales. También se trata de un método de descripción, éste descubre cadenas de eventos que definen comportamientos.  Un ejemplo es, “Siempre que un semáforo está en rojo y pasa a verde, alguien pita”.


viernes, 23 de marzo de 2012

Definición de DMS

Hoy presentamos un video de nuestra autoría, donde mostramos las generalidades de la minería de datos. Lo invitamos a compartir nuestra visión.


domingo, 18 de marzo de 2012


Ejemplos de Aplicación de Minería de Datos



Gobiernos


"El FBI analizará las bases de datos comerciales para detectar terroristas"


Lo que pretende como objetivo el FBI, es hacer uso de las herramientas de minería de datos para identificar a potenciales terroristas con antelación a que puedan cometer un atentado. Teniendo la cantidad de datos que tienen, pretenden estudiar los hábitos y costumbres de la población, sabiendo así si la persona fuma, que talla es, que tipo de ropa usa, si ha sido arrestado, el barrio donde vive, su salario, las revistas a las que esta suscrito, su altura , peso y entre otros aspectos que serian de gran ayuda para cumplir con el objetivo.

Deporte  


Los equipos de la NBA (National Basketball Association), hacen uso de la minería de datos para apoyar a sus cuerpos técnicos en cuanto a la toma de decisiones para sus futuras tácticas. Con el Advanced Scout, el cual es un software que emplea técnicas de minería de datos, el cuerpo técnico de los diferentes equipos, tienen a su disposición el análisis de los diferentes partidos jugados, teniendo así cada evento sucedido como lo son pases, encetes, rebotes y doble marcaje a un jugador por el equipo contrario, entre otros. Todos estos aspectos ayudan a concluir patrones que son poco visibles por el técnico al ver el partido en vivo o en vídeo. Por ejemplo, el doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar mas fácilmente. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje.

Terrorismo


Gracias a la minería de datos, el ejercito de los EE.UU, habían identificado al líder de los atentados del 11 de septiembre de 2001, Mohmmed Atta, y tres secuestradores mas.












Recursos Humanos


Bajo este tema, la minería de datos es útil para identificar las características de los empleados, mirando así, por ejemplo, cuales tienen un perfil de desempeño alto y cuales un perfil de desempeño bajo. Toda la información obtenida luego de practicar la minería de datos, puede ayudar a la contratación de personal que cumplan los requisitos de cierto cargo.



Genética


El objetivo de esta área, se trata de saber como los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes. Este proceso es de suma importancia para ayudar a mejorar el diagnostico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para tal fin es conocida como reducción de dimensionalidad multifactorial.








Fraudes


La detección de fraudes en el uso de tarjetas de crédito o en servicios de telefonía móvil, normalmente suelen seguir patrones caracterisiticos que permiten distinguirlas de las legitimas para así desarrollar mecanismos con el fin de tomar medidas rápidas frente a ellas.










Patrones de fuga


En la mayoría de industrias, existen un entendible interés en detectar lo mas pronto posible a todos los clientes que probablemente estén pensando en cancelar los servicios con la empresa anulando sus contratos, o clientes que posiblemente estén obteniendo cierto interés por la competencia. Aquí, la minería de datos ayuda a determinar los clientes que podrían darse de baja, estudiando sus patrones de comportamiento y comparandolos con muestras de clientes que ya lo han hecho.

Habitos de compra en supermercados


Uno de los estudios mas citados, en cuanto a los hábitos que se pueden encontrar en las compras de supermercado, fue la detección del patrón de adquisición de cerveza y pañales al mismo tiempo, por  padres jóvenes los viernes en la noche. Jovenes cuya perspectiva para el fin de semana consistia en quedarse en casa cuidando de sus hijos viendo television con una cerveza en la mano.
Con el descubrimiento de este patron, los supermercados incrementaron sus ventas de cerveza colocandolas justo al lado de los pañales, con el fin de fomentar las ventas compulsivas.


Internet: Web Mining


Cada vez que un usuario visita un sitio web, deja una serie de huellas web (direcciones IP, navegador, etc) que los servidores van almacenando automáticamente en sus bases de datos. Con la minería de datos y en este caso "web mining" se analizan y procesan estos datos con el fin de producir información significativa. Por ejemplo, se pueden observar casos donde los clientes que hacen una compra en linea cada semana, tienden a ser sectores de la población determinados, como estudiantes, pensionistas, funcionarios u otros. El resultado de estos patrones, es proponer diversas ofertas a los diferentes sectores y asi conseguir un incremento en las compras de estos grupos.

Negocios


Normalmente, los metodos que aplican las empresas para administrar y contactar clientes son poco eficiente; lo hacen de una forma indiscriminada enviando cartas o desde un centro de llamada. Lo que hace en la mayoría de casos es contactar sin ningun patron de selección. El trato con los clientes al momento de ofrecer cualquier tipo de promoción o al momento de hacer cualquier otro tipo de contacto , se vería facilmente reflejado si se contactan a los clientes previamente estudiados y previamente seleccionados.

La contribución de la Minería de Datos se ve aplicada por ejemplo, al momento de contactar a los clientes que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción, también podrían construir modelos separados para cada región y para cada tipo de cliente, en lugar de crear modelos para predecir que clientes pueden cambiar. Normalmente las empresas que utilizan minería de datos en casos como estos, ven rapidamente el retorno de la inversión.

Referencias:


http://www.slideshare.net/bebeyom/mineria-de-datos-4869412

http://es.scribd.com/doc/31683929/Ejemplos-de-uso-de-la-mineria-de-datos

http://www.it.uc3m.es/jvillena/irc/practicas/06-07/22.pdf

http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#Ejemplos_de_uso_de_la_miner.C3.ADa_de_datos

domingo, 11 de marzo de 2012

El Valor de los Datos que Transitan en el Mundo

El uso de Business Intelligence fue una de las tendencias que marcaron la feria alemana CeBIT 2012, que culminó ayer, 10 de marzo. Allí participaron diferentes empresas de software, mostrando sus productos: el aprendizaje computacional y las técnicas de Data Mining están a la orden del día.


Como hemos mostrado en ocasiones anteriores, las herramientas de minería de datos proporcionan información muy valiosa para las empresas. Hasta ahora, hemos presentado algunos ejemplos de éxito y utilización en contextos típicos, como los datos locales en diferentes formatos, o Internet. Ahora es la oportunidad de ver algunos maravillosos ejemplos de uso de la minería de datos en contextos más amplios:

La construcción de una ciudad más inteligente

En el siguiente video, se muestra el uso de una aplicación (Intelligent Operations Center) para mejorar las diferentes operaciones de Zhenjiang, una ciudad turística de China. Por ahora, se puede desde allí monitorear el transporte: se toman datos de satélites, cámaras, sensores, entre otros, y se facilita la toma de decisiones mediante la identificación de tendencias. La aplicación en esta ciudad también proviene del aprendizaje en sistemas similares obtenido en otras ciudades (Río de Janeiro, New York, Estocolmo, Madrid, Singapur, entre otros)… y así, se busca identificar algunos patrones que faciliten la automatización de algunas operaciones en el futuro. Por supuesto, la minería de datos es la encargada de dilucidar estas tendencias, y consideramos que su uso en estos temas es decisivo y constituye un reto para el manejo de data mining en datos de gran cantidad y crecimiento (big data).

Monitoreando el uso de un carro electrónico


Elektroautos sind derzeit en vogue, so auch schon auf der jüngsten IAA in Frankfurt. (Bild: picture alliance / dpa /  Arne Dedert)Este tipo de vehículos está pasando por una importante fase de investigación y producción. Es el caso de 44 automóviles que se encuentran en circulación en Alemania, y que contienen “loggers” de datos autorizados, enviando información al Centro de Investigación en Inteligencia Artificial de Bremen: se envía la información de batería, posición, uso de la energía, velocidad, entre otros. Así, se generan “perfiles de movimiento”, que se deducen a partir de Data Mining: y todo, para establecer las necesidades y usos típicos de estos autos, y así definir nuevas metas de investigación, e incluso predecir su funcionamiento.



Seguridad Sanitaria

En un caso concreto, en Gales, existe una amplia cantidad de información acerca de las enfermedades animales de la región. Los factores de riesgo se han identificado, y se ha hecho una clasificación de estos para así mejorar las condiciones sanitarias. Todo esto, gracias al eficiente uso de diferentes técnicas de minería de datos: regresión, árboles de clasificación, y análisis de factores.

Applications of Data Mining in Computer Security

Seguridad Computacional

En el campo de la detección de intrusiones, la minería de datos puede jugar un factor decisivo, pues la cantidad de información que se manejan en las redes y sistemas es muy grande, haciendo que este tipo de problemas puedan ser estudiados mediante el software que aquí estudiamos: mediante DM es posible identificar aquellas anomalías que puedan sugerir las intrusiones, y el análisis de las implicaciones que éstas han tenido.


Referencias:

IBM. A Smarter Planet Project: Building an Operating System for Cities. 
http://asmarterplanet.com/blog/2012/02/building-an-operating-system-for-cities.html


IBM: Calabrese, Francisco. Smart Cities - How can Data Mining and Optimization shape Future Cities?
http://www.cost.eu/download/Calabrese 

Deutschlandfunk: Kloiber, Manfred. Auto als Datenquelle.
http://www.dradio.de/dlf/sendungen/forschak/1698145/


Ortiz-Peláez, Ángel. Use of data mining techniques to investigate disease risk classification as a proxy for compromised biosecurity of cattle herds in Wales
http://www.biomedcentral.com/1746-6148/4/24


Barbara, Daniel. Applications of Data Mining in Computer Security.
http://www.springer.com/computer/theoretical+computer+science/book/978-1-4020-7054-9

PresseBox. Teradata auf der CeBIT 2012: Datenanalysen stehen im Rampenlicht
http://www.pressebox.de/pressemeldungen/teradata-deutschland/boxid/487193

lunes, 5 de marzo de 2012


El Valor de los Datos que Transitan Internet




La minería Web (Web Mining o Webmining) es la metodología de recolección de información en la WEB. Por medio de minería de datos, se extrae información del contenido de las páginas, de los enlaces y de los registros de navegación.





En ésta, la era de la información la minería de datos en la WEB se hace protagonista.

Al cierre del 2011 se alcanza la gigantesca cifra de 2.1 mil millones de usuarios de internet en el mundo, además los usuarios de internet en los diferentes continentes son entre el 11% y el 78% de la población total y ahora con el auge del internet móvil, esta cifra sigue subiendo. Cada uno de estos usuarios día a día van dejando un rastro importante de datos que se convierten, para muchos, en el oro del momento.    

  
Las empresas que mejor convierten los datos en información relevante para el negocio y ésta a su vez en conocimiento útil para la innovación, son las empresas que lideran los mercados. Cada día, muchos sitios de internet están recogiendo datos, haciendo clasificaciones y encontrando patrones por medio de técnicas de minería de datos (WEB Mining), sacando provecho de la información implícita que dejamos. Hay tres objetivos claves en la minería WEB:


Minería del uso de la Web
Es el proceso mediante el cual se extrae información del historial de los registros del servidor con el fin de descubrir cómo y para qué usa la web e identificar lo que los usuarios buscan en Internet.
Minería del contenido de la Web
Con este método se extraen e integran los datos útiles, información y conocimiento de los contenidos de la Web tales como imágenes, audio, texto, video, etc.
Minería de la estructura de la Web
En este proceso se utiliza la teoría de grafos para analizar el nodo y las estructuras de conexión de un sitio web.


Empresas poderosas por la información que poseen, como Google, FaceBook, Micosoft, Yahoo, Apple entre otros, hacen uso de la minería Web; esto les permite, por ejemplo, mejorar el acierto en la publicidad que aparece en las páginas al clasificar a los usuarios de acuerdo las características encontradas por medio de sus datos; identificar preferencias u opiniones de los clientes oportunamente a través del reconocimiento de patrones en las búsquedas o compras. En internet es fácil encontrar datos generales como la ubicación o la hora que pueden ayudar a crear estadísticas relevantes a los negocios.

Toda esta información, en un alto porcentaje, es usada para encontrar clientes potenciales en internet para todo tipo de productos y servicios.

Ventajas
Muchas son las ventajas que provee esta tecnología, influye en que aumenten los volúmenes en el comercio, aporta en la aparición de nuevas iniciativas, productos y servicios, provoca mas innovación, permite un mejor servicio al cliente, apoya el control de la autoridades por medio de la predicción de actividades delictivas. En líneas generales, si los datos y la información son “el oro del momento”, la minería Web es la herramienta para extraerlo.

Polémicas
Como todo no es color de rosa, cabe mencionar que entre todo este bum de la información en internet, hay algunas polémicas que surgen del manejo que se le da a la información. La que más ruido hace es la que se refiere a la información personal y al derecho a la privacidad. Existen empresas que se dedican a crear y vender a terceros clasificaciones y bases con los datos de los usuarios que inocentemente transitan en internet.  Mucha de la información personal de los usuarios de internet se encuentra suelta y sin restricciones,  ¿Hasta qué punto será que es tolerable su uso?

Referencias
Wikipedia. (4 de Marzo de 2012). Web Mining
(4 de Marzo de 2012)
NAP. Comportamiento del trafico NAP en Colombia
(4 de Marzo de 2012)

Pingdom. (17 de Enero de 2012).  Internet 2011 in numbers
(4 de Marzo de 2012)
Jorge Enrique Mújica, LC. (13 de Septiembre de 2010). El negocio de la información personal en Internet
(4 de Marzo de 2012)

Jessica E. Vascellaro. (12 de Agosto de 2010). La publicidad personalizada y el dilema de Google sobre privacidad
(4 de Marzo de 2012)
Time Magazine. Joel Stain(10 de Marzo de 2011). How Companies Now Know Everything About You
(4 de Marzo de 2012)