Skip to content

Tecnologías de Big Data Explicadas

¿Te has preguntado cómo Netflix adivina qué serie te va a enganchar o cómo tu app del clima sabe que va a llover en 10 minutos? No es magia. Es Big Data haciendo su trabajo detrás de bambalinas. Y para lidiar con toda esa cantidad de datos que no paran de llegar, no basta con una planilla de Excel y buena onda. Se necesitan herramientas pesadas.

Hoy te cuento sobre algunas de las más conocidas: Hadoop, Spark y otros compañeros. Nada complicado, lo hacemos simple.


Pero primero… ¿Qué es exactamente el Big Data?

Big Data es una cantidad enorme de datos. Pero no solo es tamaño. También se trata de velocidad y variedad. Mucho contenido, que llega rapidísimo y en distintos formatos. No podés simplemente tirarlo en una carpeta y ya está. Se necesitan herramientas diseñadas para manejar ese caos.


Conozcamos a Hadoop — El bibliotecario ordenado

Hadoop es como ese amigo que tiene todo bajo control. Imaginá una biblioteca gigantesca. No podés meter todos los libros en un solo estante. Se viene abajo. Hadoop lo que hace es distribuir los libros en varios estantes, en distintas salas.

Con los datos es igual. Hadoop los parte en pedazos más chicos y los guarda en distintas máquinas. Si una de esas máquinas falla, tranqui. Hay copia en otra parte. Todo está pensado para que nada se pierda.

Dentro de Hadoop hay dos partes claves:

  • HDFS — se encarga de guardar los datos en distintas máquinas.
  • MapReduce — agarra un problema grande, lo divide en tareas más chicas y las ejecuta en paralelo.

Ahora entra Spark — El veloz del grupo

Si Hadoop es tu bibliotecario metódico, Spark es el pasante que se lee cien libros antes del almuerzo.

Spark hace lo mismo que Hadoop pero a toda velocidad. ¿Por qué? Porque procesa los datos en la memoria (RAM), en lugar de estar escribiendo y leyendo del disco todo el tiempo. Y eso ahorra muchísimo tiempo.

Es como comparar una olla de cocción lenta con un microondas. Los dos cocinan, pero uno te da de comer en cinco minutos.


¿Cuándo usar cada uno?

Usa Hadoop cuando tienes toneladas de datos y el tiempo no es problema. Como para hacer análisis batch o guardar históricos.

Usa Spark cuando el tiempo importa. Como en dashboards en tiempo real, alertas instantáneas o análisis en caliente.


Algunas herramientas más que vale la pena conocer

  • Hive — te permite usar SQL para consultar los datos en Hadoop. Ideal si ya sabés SQL y no querés escribir código raro.
  • Kafka — maneja flujos de datos en tiempo real. Como un cartero que no se retrasa nunca.
  • Flink — parecido a Spark, pero pensado desde cero para trabajar con datos en vivo, sin parar.

¿Y cómo se complementan?

Forman un buen equipo:

  • Hadoop guarda los datos.
  • Kafka trae datos nuevos a medida que llegan.
  • Spark o Flink los procesan al toque.
  • Hive te deja hacer preguntas en SQL y sacar respuestas sin dolor.

Cada herramienta tiene su función. Juntas, pueden con cualquier desafío de datos grandes.


¿Y por qué debería importarte todo esto?

Porque estamos generando datos todo el tiempo. Redes sociales, compras online, sensores de tráfico, correos, todo. Estas herramientas permiten convertir ese ruido en algo útil.

Desde ayudar a médicos a detectar problemas antes de tiempo hasta recomendarte tu próxima serie favorita. Todo gracias a estas tecnologías.


Para cerrar

El Big Data puede sonar intimidante, pero no es otra cosa que organizar y entender un montón de información. Herramientas como Hadoop y Spark hacen el trabajo duro. Y otras como Hive, Kafka o Flink ayudan a que todo fluya sin problemas.

Así que la próxima vez que una app te recomiende justo lo que querías o escuches que están prediciendo tormentas con datos, ya sabés. Hay toda una maquinaria poderosa detrás haciendo que funcione.

Published inData Engineering