En este proyecto guiado de 1 hora, aprenderemos cómo interactuar con un clúster de Spark usando el entorno Jupyter y cómo crear una aplicación Spark. Aprenderemos a utilizar Spark Resisilent Distributed Datasets y Spark Data Frames para explorar colecciones de datos. Cargaremos un conjunto de datos en nuestro programa Spark y realizaremos análisis de datos utilizando acciones, transformaciones, Spark DataFrame API y Spark SQL. Aprenderemos como elegir las mejores herramientas para utilizar en cada escenario. Finalmente, aprenderemos a guardar resultados en tablas de Parquet.