Introducción a Python para análisis de datos Variables y tipos de datos Operadores y estructuras de control Manejo de cadenas de texto y entrada/salida Estructuras de datos avanzadas (Listas, Tuplas, Diccionarios) Introducción a Programación Orientada a Objetos (POO)
Conceptos clave de Big Data y procesamiento distribuido Introducción a Databricks y Apache Spark Fundamentos del entorno Databricks Manipulación de datos con Spark DataFrames: - Selección y transformación de columnas - Filtrado y ordenación de datos - Agregaciones y combinaciones de datos
Introducción a Unity Catalog para la gestión de datos Ingestión de datos con Delta Lake Uso de comandos avanzados (Copy Into, CTAS) Medallion Architecture: Bronze, Silver y Gold Layers Automatización con Databricks Workflows
Introducción a Azure Data Lake Gen2 Conectividad entre Azure Data Lake y Databricks Uso de Azure Key Vault y gestión de secretos Lectura y escritura eficiente de archivos en Data Lake Gen2 Automatización de carga de datos con Auto Loaderr
Delta Live Tables y procesamiento en tiempo real Streaming Tables y manejo de datos en flujo Estrategias de testing en PySpark Mejores prácticas en Delta Lake Uso de Databricks Assistant para optimización
Validación de datos con PySpark y Data Quality Checks Características avanzadas de Delta Lake Implementación de Change Data Feed (CDF) en Delta Lake