Introducción a Python para análisis de datos
Variables y tipos de datos
Operadores y estructuras de control
Manejo de cadenas de texto y entrada/salida
Estructuras de datos avanzadas (Listas, Tuplas, Diccionarios)
Introducción a Programación Orientada a Objetos (POO)
Conceptos clave de Big Data y procesamiento distribuido
Introducción a Databricks y Apache Spark
Fundamentos del entorno Databricks
Manipulación de datos con Spark DataFrames:
- Selección y transformación de columnas
- Filtrado y ordenación de datos
- Agregaciones y combinaciones de datos
Introducción a Unity Catalog para la gestión de datos
Ingestión de datos con Delta Lake
Uso de comandos avanzados (Copy Into, CTAS)
Medallion Architecture: Bronze, Silver y Gold Layers
Automatización con Databricks Workflows
Introducción a Azure Data Lake Gen2
Conectividad entre Azure Data Lake y Databricks
Uso de Azure Key Vault y gestión de secretos
Lectura y escritura eficiente de archivos en Data Lake Gen2
Automatización de carga de datos con Auto Loaderr
Delta Live Tables y procesamiento en tiempo real
Streaming Tables y manejo de datos en flujo
Estrategias de testing en PySpark
Mejores prácticas en Delta Lake
Uso de Databricks Assistant para optimización
Validación de datos con PySpark y Data Quality Checks
Características avanzadas de Delta Lake
Implementación de Change Data Feed (CDF) en Delta Lake