Apache Spark incluye una librería integrada llamada MLlib, diseñada para ejecutar algoritmos de Machine Learning en entornos distribuidos. Esta herramienta permite procesar grandes volúmenes de datos y construir modelos escalables de manera eficiente.
El flujo típico de un proyecto de Machine Learning en Spark sigue estos pasos:
from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
# Crear una sesión de Spark
spark = SparkSession.builder.appName("MLlibEjemplo").getOrCreate()
# Cargar datos de ejemplo
data = [(1, 2.0, 3.0, 1.0),
(2, 1.0, 2.0, 0.0),
(3, 4.0, 5.0, 1.0)]
columns = ["id", "feature1", "feature2", "label"]
df = spark.createDataFrame(data, columns)
# Combinar características en un solo vector
assembler = VectorAssembler(inputCols=["feature1", "feature2"], outputCol="features")
transformed_df = assembler.transform(df)
transformed_df.show()