Apache Spark ofrece soporte integrado para leer y escribir datos en una amplia variedad de formatos y fuentes, lo que facilita la integración con diversos sistemas y herramientas.
# Leer un archivo CSV
df_csv = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/ruta/archivo.csv")
df_csv.show()
# Leer un archivo JSON
df_json = spark.read.format("json").load("/ruta/archivo.json")
df_json.printSchema()
df_json.show()
# Leer un archivo Parquet
df_parquet = spark.read.format("parquet").load("/ruta/archivo.parquet")
df_parquet.show()
# Leer desde MySQL
jdbc_url = "jdbc:mysql://host:puerto/base_de_datos"
propiedades = {"user": "usuario", "password": "contraseña"}
df_mysql = spark.read.jdbc(url=jdbc_url, table="tabla", properties=propiedades)
df_mysql.show()
# Guardar un DataFrame en formato CSV
df_csv.write.format("csv").option("header", "true").save("/ruta/salida.csv")