Manuale d'Uso del Servizio di Clustering KMeansTrainer

Introduzione

Il servizio KMeansTrainer consente di applicare un algoritmo di clustering non supervisionato (KMeans) a un dataset tabellare. Il servizio è generico e adatto a qualsiasi dataset misto (numerico e categorico), includendo un preprocessing automatico e la produzione di grafici esplicativi.

Il clustering permette di individuare gruppi (cluster) all'interno dei dati senza che sia necessario specificare una variabile target.

Funzionalità del Servizio

1. Clustering con Preprocessing Automatico

Il servizio costruisce una pipeline sklearn composta da:

Preprocessing:
Imputazione dei valori mancanti (media per numeriche, costante "missing" per categoriche).
Rimozione di colonne costanti o interamente vuote.
Standardizzazione delle feature numeriche.
One-hot encoding delle feature categoriche.
Clustering:
Modello KMeans con numero di cluster e parametri personalizzabili.

2. Produzione Risultati

Il servizio genera:

Un dataset arricchito con una colonna cluster che indica l'assegnazione di ciascuna riga.
Un modello serializzato (pipeline.pkl) contenente tutta la pipeline (preprocessing + clustering), pronto per essere riutilizzato.
Grafici esplicativi basati sulle prime tre componenti principali (PCA):
PCA Component 1 vs 2
PCA Component 1 vs 3
PCA Component 2 vs 3
Metriche di coesione dei cluster:
Silhouette Score

3. Logging e Visualizzazione

Il servizio sfrutta il modulo genericoutput per:

Loggare il valore del silhouette score.
Inviare immagini (Picture) delle proiezioni PCA per facilitare la valutazione visiva della separabilità dei cluster.

Utilizzo del Servizio

Interfaccia Utente

Il servizio può essere configurato tramite interfaccia grafica sul Sistema Data Analytics o compose, impostando:

1. Input Dataset

Dataset tabellare contenente colonne numeriche e/o categoriche.

2. Parametri principali

n_clusters: numero di cluster desiderato (es. 3, 4, ...).
kmeans_kwargs: parametri opzionali in formato JSON per personalizzare il comportamento dell'algoritmo KMeans. Ad esempio:

{
  "init": "k-means++",
  "max_iter": 300,
  "random_state": 42
}

3. Output

Nome del dataset di output
Nome del modello salvato (cartella contenente pipeline.pkl)

4. Visualizzazione

I grafici PCA vengono generati automaticamente se il dataset preprocessato ha almeno 3 dimensioni.

Esecuzione

Dopo aver completato la configurazione, è sufficiente salvare la BDA Application e avviare il RUN. L'output sarà disponibile nella sezione risorse della pipeline.