martes, 15 de enero de 2013

Big Data

Es muy probable que esté leyendo y escuchando este concepto cada vez más seguido. Tanto en el mundo académico como comercial es un tema en boga. Los grandes actores del mundo informático, Google, Microsoft, IBM, Oracle, Facebook, General Electric, entre otros, están haciendo uso intensivo de este concepto, tanto para uso propio como para vender servicios a clientes. Pero, qué es Big Data?
Big Data hace referencia al área de las Ciencias de la Computación que estudia los sistemas que manejan gran cantidad de datos. Cuando hay grandes cantidades de datos, las actividades de visualización, análisis, almacenamiento y búsqueda se ven especialmente afectadas. El lector ávido ya debe estar pensando en la propia Internet como un silo con enorme cantidad de información y por consiguiente a Google como un experto en el tratamiento de esta enorme masa de datos, especialmente en lo que respecta a la búsqueda. Sin embargo, existen muchas otras áreas de la ciencia y tecnología en las cuales se manejan gran cantidad de datos y es necesario procesarlas para obtener resultados en el menor tiempo posible. 

Vamos a detenernos por un momento a enumerar fuentes generadoras de datos: redes sociales, satélites meteorológicos, sensores en aeronaves, sensores en la agricultura, contadores de gas y luz, datos de telefónicas, entre muchísimos otros. Podemos observar que ya no solo un ser humano es capaz de generar datos, existen dispositivos autómatas cuya función es capturar datos de su entorno para luego ser procesados. Muchos datos, pero cuanto es "mucho"? Según la IDC (International Data Corporation), en 2006 la producción de datos a nivel mundial fue de 180 exabytes, creciendo hasta 1800 exabytes en 2011. Un exabytes son mil millones de gigabytes, parece mucho, pero llevémoslo al mundo físico. Un libro de tamaño razonable "pesa" unos 4 MB (este es el tamaño del Nuevo y Viejo testamento). Por lo que, 1800 exabytes equivale a una biblioteca de 250 mil millones de libros.

Muchos datos para analizar, generalmente en poco tiempo. Ningún usuario de Internet está dispuesto a esperar horas para obtener un resultado de búsqueda. Ningún corredor de bolsa está dispuesto a esperar meses para obtener resultados del análisis de datos bursátiles. Ningún pasajero de avión está dispuesto a  que las computadoras que controlan la aeronave tarden horas en tomar decisiones en función de los cientos de sensores que están constantemente recolectando datos del vuelo. 

Algunos conceptos importantes: volumen, variedad y velocidad, pilares de Big Data. Son conceptos que se desprenden de los ejemplos e ideas planteadas líneas más arriba. Lo animamos a meditar sobre los cientos de entidades que trabajan sobre estos pilares, muchos de los cuales, son parte de su vida cotidiana. Big Data es una disciplina muy vigente con un futuro lleno de enormes desafíos.