CURSO APACHE SPARK / PYSPARK

Domina Apache Spark con Python para procesamiento distribuido de datos a escala. Aprende DataFrames, Spark SQL, streaming y optimización en Databricks con casos reales de producción.

X€ 20h Certificado WAT

Más información Descargar programa

Curso completo de PySpark desde arquitectura distribuida. Comprenderás modelo cliente-servidor, driver y workers. Configurarás entorno con PySpark local o Databricks Community Edition. Crearás DataFrames desde CSV, JSON y Parquet. Aplicarás transformaciones: select, filter, withColumn y groupBy.

Especialízate en Spark SQL para consultas con sintaxis estándar. Registrarás DataFrames como vistas temporales. Aplicarás JOINs y funciones de ventana. Procesarás datos de fechas, textos y estructuras anidadas. Implementarás streaming para datos en tiempo real. Optimizarás con particionamiento y Delta Lake.

Herramientas que usarás

Apache Spark PySpark Databricks

¿Para quién es este curso?

Para data engineers, científicos de datos y especialistas que necesitan procesar big data distribuido a escala en la nube.

Data engineers que crean pipelines batch y streaming
Científicos de datos que procesan datasets grandes
Especialistas en big data que usan Databricks
Profesionales que migran de Pandas a Spark
Consultores que implementan soluciones Spark
Equipos que necesitan procesamiento distribuido en producción
Especialistas en optimización de performance data

Temario

Lo que vas a aprender, unidad a unidad

01

Fundamentos de Spark y el Entorno de Trabajo

Entenderás arquitectura de Spark: driver, workers y particiones. Configurarás PySpark local o Databricks Community Edition. Crearás DataFrames desde ficheros CSV, JSON y Parquet. Aplicarás transformaciones básicas: select, filter, withColumn y groupBy.
02

Spark SQL y Procesamiento Avanzado

Registrarás DataFrames como vistas temporales y consultarás con Spark SQL. Aplicarás JOINs y operaciones multi-tabla. Usarás funciones de ventana en PySpark para análisis avanzado. Procesarás datos de fechas, textos y estructuras anidadas.
03

Streaming, Optimizacin y Produccin

Implementarás pipelines de Structured Streaming con PySpark. Aplicarás técnicas de optimización: particionamiento, caching y Adaptive Query Execution. Gestionarás datos con Delta Lake para transacciones ACID. Desplegarás jobs en Databricks o GCP Dataproc.

Profesores

Profesionales en activo, no académicos

Todos nuestros profesores son profesionales en activo que trabajan día a día con las herramientas y metodologías que enseñan. En WAT creemos que la mejor formación viene de quienes aplican el conocimiento en proyectos reales, no solo de quienes lo leen en libros.

Resultados

Qué vas a conseguir

Entender arquitectura distribuida de Apache Spark
Crear y manipular DataFrames con PySpark
Implementar Spark SQL para análisis complejos
Aplicar JOINs optimizados con broadcast hints
Usar funciones de ventana para cálculos avanzados
Procesar datos complejos: arrays, mapas y JSON
Implementar streaming en tiempo real con Structured Streaming
Optimizar queries con particionamiento y caching
Usar Delta Lake para transacciones ACID en Spark

Por qué WAT

En otras escuelas vs En WAT

En otras escuelas

Cursos básicos que no cubren Spark SQL ni streaming
Formaciones que no incluyen optimización de producción
Plataformas que no enseñan procesamiento distribuido real
Cursos sin enfoque en Delta Lake y ACID

En WAT

WAT enseña Spark con casos reales de Databricks
Incluye streaming y optimización para producción
Aprenderás Delta Lake para garantizar integridad de datos
Acceso a arquitecturas distribuidas reales a escala

Preguntas frecuentes

FAQs

¿Cuándo usar Spark en lugar de Pandas?

Spark cuando tienes datos > memoria RAM disponible, necesitas procesamiento distribuido o trabajas en clusters cloud. Pandas para datasets pequeños.

¿Qué es particionamiento y por qué es importante?

Particionamiento divide datos en fragmentos procesados en paralelo. Es crítico para performance en Spark con grandes volúmenes.

¿Cuál es la diferencia entre transformaciones y acciones?

Transformaciones: lazy (no ejecutan). Acciones: eager (ejecutan). Spark optimiza basado en acciones finales.

¿Puedo usar PySpark sin Databricks?

Sí, PySpark funciona en modo local, cluster on-premises o cualquier cloud. Databricks simplifica gestión.

¿Qué es Delta Lake y por qué lo necesito?

Delta Lake añade transacciones ACID, versionado y time travel a data lakes. Garantiza integridad en producción.

Cursos relacionados

Sigue formándote en DATA

Data Engineering

GESTIÓN DE DATOS EN LA NUBE

Curso integral: Big Data fundamentals, estadística, bases de datos, SQL avanzado, Python para datos, pipelines ETL, Google Cloud, machine learning aplicado y governance de datos.

40h Saber más

Data Engineering

CURSO DBT (DATA BUILD TOOL)

Domina dbt como herramienta estándar de transformación de datos. Aprende modelado con SQL+Jinja, testing, documentación y despliegue de pipelines en BigQuery y Snowflake con buenas prácticas.

18h Saber más

Data Engineering

MACHINE LEARNING CON PYTHON

Introducción práctica a machine learning con scikit-learn. Integración con Google Cloud y BigQuery. Construir, entrenar y evaluar modelos de clasificación, regresión y análisis predictivo.

18h Saber más

¿Preparado para dar el siguiente paso?

Déjanos tu email y un asesor te contactará para resolver dudas y ayudarte a reservar plaza.

CURSO APACHE SPARK / PYSPARK

Lo que vas a aprender, unidad a unidad

Fundamentos de Spark y el Entorno de Trabajo

Spark SQL y Procesamiento Avanzado

Streaming, Optimizacin y Produccin

Profesionales en activo, no académicos

Qué vas a conseguir

En otras escuelas vs En WAT

FAQs

Sigue formándote en DATA

GESTIÓN DE DATOS EN LA NUBE

CURSO DBT (DATA BUILD TOOL)

MACHINE LEARNING CON PYTHON

¿Preparado para dar el siguiente paso?