El volumen de datos generados anualmente crece de forma exponencial en todos los sectores. Por mencionar algunos datos, se estima que el 90% de toda la información existente ha sido generada en los últimos 2 años. Sólo en 2011 se crearon del orden de 1,8 zettabytes de información, donde más del 90% son datos desestructurados, y toda esta información se duplica cada 2 años.

Pensemos en la cantidad de información subida diariamente a redes sociales como Facebook, Twitter o Youtube, el internet de las cosas, sensores de todo tipo enviando información continuamente (dispositivos GPS, medidores eléctricos, estaciones meteorológicas, cámaras de vigilancia…), smartphones que nos permiten estar siempre conectados y generando información, apps, transacciones financieras, compras online, información del sector público, sanitario, datos científicos, grandes corporaciones…

Hoy en día, los datos son tan desproporcionadamente grandes que almacenar y procesar toda esta información con los sistemas tradicionales se ha convertido en un problema, ya sea por el tiempo requerido, por la imposibilidad de manejar tal volumen de información, por la naturaleza desestructurada de los datos (vídeo, audio…) o incluso por problemas de dimensionamiento, cuando ampliar la máquina o distribuir los datos a otros lugares de la red no es una tarea fácil. Es entonces cuando hablamos de Big Data.

El concepto Big Data se aplica al conjunto de nuevas tecnologías surgidas para dar respuesta a las limitaciones que presentan los sistemas tradicionales con respecto al tratamiento masivo de datos, ya sea por el gran volumen de información, por la variedad de esos datos o por la velocidad al realizar el tratamiento de dicha información.

Todo comenzó sobre el año 2003, cuando Google estaba viendo incrementados los problemas para procesar e indexar todo internet de la forma en la que lo hacía tradicionalmente. Para resolver estos problemas, un par de ingenieros de Google inventaron MapReduce, una solución que unida al sistema de ficheros distribuido de Google (GFS), permitía manejar grandes cantidades de datos generados por el buscador a una velocidad mucho mayor y de forma más barata, pudiéndose ejecutar además en hardware commodity (de bajo coste).

A pesar de que Google mantuviera esta tecnología en secreto, sólo un par de publicaciones técnicas fueron necesarias para que Doug Cutting creara su propia versión y comenzara a partir de aquí un nuevo proyecto open source que fue bautizado con el nombre de Hadoop.

Simplificando, podríamos decir que Hadoop nos permite procesar y almacenar de forma distribuida grandes conjuntos de datos a través de un clúster de máquinas que puede ser del orden de miles de nodos, soportado por hardware commodity, y todo esto en un entorno fiable y tolerante a fallos.

El ecosistema Big Data ha evolucionado mucho desde entonces y no se reduce sólo a Hadoop; es mucho más amplio y contiene gran cantidad de productos que complementan y añaden mayores capacidades al entorno. Ejemplo de ello son los productos: Pig, Hive, NoSQL (HBase, Cassandra…), Flume, Sqoop, Zookeeper, Oozie…

Son muchos los que hacen uso de las bondades de esta tecnología, por ejemplo, Twitter lo utiliza para almacenar y procesar tuits o ficheros de log. Facebook, con un cluster de más de 1.000 máquinas, almacena en Hadoop copias de los logs internos y lo utilizan como fuente de reporting/analytics y algoritmos de aprendizaje. Una de las implementaciones más grandes, si no la que más, es la que hace Yahoo! para investigaciones en el sistema de publicidad y búsquedas, con 4.500 nodos.

Sin duda, el aumento exponencial de los datos que tienen disponibles las empresas y organizaciones de todo tipo, y las necesidades de tecnologías capaces de explotar y obtener mayor partido de dicha información, hace que las expectativas generadas en torno al ecosistema Big Data sean muy elevadas, previéndose un ritmo muy alto de crecimiento de este tipo de soluciones, grandes oportunidades de negocio, así como un aumento de la demanda de profesionales cualificados.

Big Data ya está aquí…, are you ready?

Share This