Manuale d'Uso del Servizio di Sottocampionamento Bilanciato
Introduzione
Questo servizio consente di ridurre il numero di righe in un dataset tramite sottocampionamento stratificato e bilanciato, garantendo la presenza di tutte le classi in modo proporzionato. È utile per:
- gestire dataset sbilanciati;
- ridurre la dimensione del dataset per prototipazione rapida;
- costruire sottoinsiemi coerenti per validazione.
Funzionalità del Servizio
1. Sottocampionamento Bilanciato
Il servizio utilizza la libreria imblearn per effettuare un RandomUnderSampler:
- le classi sono rese bilanciate tra loro;
- ogni classe è rappresentata almeno dal numero di elementi specificato;
- se richiesto, il numero totale di righe è limitato da un massimo imposto.
2. Parametri principali
labelColumn: nome della colonna che contiene le etichette (obbligatorio);max_samples: numero massimo di righe totali da ottenere (facoltativo);min_per_class: numero minimo di righe da mantenere per ciascuna classe (default: 1);random_state: seme per la riproducibilità (facoltativo).
3. Asset prodotti
Dopo l'esecuzione, il servizio produce un asset distribuzione_dati (visibile nella sezione "application media" della BDA Application durante o dopo l'esecuzione) con il numero di righe selezionate per ciascuna classe nel dataset sottocampionato.
Utilizzo del Servizio
- Questo servizio è indicato per ridurre dataset grandi o riequilibrare classi prima del training.
1. Caricamento del Dataset
- Selezionare il dataset da sottocampionare come input.
- Specificare il nome della colonna target nel campo
labelColumn.
2. Parametri facoltativi
- Impostare
max_samplesse si desidera un numero massimo di righe nell'output; - Impostare
min_per_classper controllare la rappresentanza minima di ciascuna classe; - Impostare
random_stateper ottenere risultati ripetibili.
3. Esecuzione
- Salvare la BDA Application
- Cliccare su RUN
Il dataset risultante conterrà le righe selezionate e sarà accessibile tra le risorse.
Cosa Verificare
- Che la colonna
labelColumnesista ed abbia almeno due classi distinte; - Che
max_samplessia sufficientemente grande per garantiremin_per_classper ogni classe; - Che il asset
distribuzione_datisia stato prodotto.