Manuale d'Uso del Servizio di Clustering KMeansTrainer
Introduzione
Il servizio KMeansTrainer consente di applicare un algoritmo di clustering non supervisionato (KMeans) a un dataset tabellare. Il servizio è generico e adatto a qualsiasi dataset misto (numerico e categorico), includendo un preprocessing automatico e la produzione di grafici esplicativi.
Il clustering permette di individuare gruppi (cluster) all'interno dei dati senza che sia necessario specificare una variabile target.
Funzionalità del Servizio
1. Clustering con Preprocessing Automatico
Il servizio costruisce una pipeline sklearn composta da:
-
Preprocessing:
-
Imputazione dei valori mancanti (media per numeriche, costante "missing" per categoriche).
- Rimozione di colonne costanti o interamente vuote.
- Standardizzazione delle feature numeriche.
-
One-hot encoding delle feature categoriche.
-
Clustering:
-
Modello
KMeanscon numero di cluster e parametri personalizzabili.
2. Produzione Risultati
Il servizio genera:
- Un dataset arricchito con una colonna
clusterche indica l'assegnazione di ciascuna riga. - Un modello serializzato (
pipeline.pkl) contenente tutta la pipeline (preprocessing + clustering), pronto per essere riutilizzato. -
Grafici esplicativi basati sulle prime tre componenti principali (PCA):
-
PCA Component 1 vs 2
- PCA Component 1 vs 3
- PCA Component 2 vs 3
-
Metriche di coesione dei cluster:
-
Silhouette Score
3. Logging e Visualizzazione
Il servizio sfrutta il modulo genericoutput per:
- Loggare il valore del silhouette score.
- Inviare immagini (
Picture) delle proiezioni PCA per facilitare la valutazione visiva della separabilità dei cluster.
Utilizzo del Servizio
Interfaccia Utente
Il servizio può essere configurato tramite interfaccia grafica sul Sistema Data Analytics o compose, impostando:
1. Input Dataset
- Dataset tabellare contenente colonne numeriche e/o categoriche.
2. Parametri principali
n_clusters: numero di cluster desiderato (es. 3, 4, ...).kmeans_kwargs: parametri opzionali in formato JSON per personalizzare il comportamento dell'algoritmoKMeans. Ad esempio:
3. Output
- Nome del dataset di output
- Nome del modello salvato (cartella contenente
pipeline.pkl)
4. Visualizzazione
I grafici PCA vengono generati automaticamente se il dataset preprocessato ha almeno 3 dimensioni.
Esecuzione
Dopo aver completato la configurazione, è sufficiente salvare la BDA Application e avviare il RUN. L'output sarà disponibile nella sezione risorse della pipeline.