Vai al contenuto

Manuale d'Uso del Servizio di Sottocampionamento Bilanciato

Introduzione

Questo servizio consente di ridurre il numero di righe in un dataset tramite sottocampionamento stratificato e bilanciato, garantendo la presenza di tutte le classi in modo proporzionato. È utile per:

  • gestire dataset sbilanciati;
  • ridurre la dimensione del dataset per prototipazione rapida;
  • costruire sottoinsiemi coerenti per validazione.

Funzionalità del Servizio

1. Sottocampionamento Bilanciato

Il servizio utilizza la libreria imblearn per effettuare un RandomUnderSampler:

  • le classi sono rese bilanciate tra loro;
  • ogni classe è rappresentata almeno dal numero di elementi specificato;
  • se richiesto, il numero totale di righe è limitato da un massimo imposto.

2. Parametri principali

  • labelColumn: nome della colonna che contiene le etichette (obbligatorio);
  • max_samples: numero massimo di righe totali da ottenere (facoltativo);
  • min_per_class: numero minimo di righe da mantenere per ciascuna classe (default: 1);
  • random_state: seme per la riproducibilità (facoltativo).

3. Asset prodotti

Dopo l'esecuzione, il servizio produce un asset distribuzione_dati (visibile nella sezione "application media" della BDA Application durante o dopo l'esecuzione) con il numero di righe selezionate per ciascuna classe nel dataset sottocampionato.

Utilizzo del Servizio

  • Questo servizio è indicato per ridurre dataset grandi o riequilibrare classi prima del training.

1. Caricamento del Dataset

  • Selezionare il dataset da sottocampionare come input.
  • Specificare il nome della colonna target nel campo labelColumn.

2. Parametri facoltativi

  • Impostare max_samples se si desidera un numero massimo di righe nell'output;
  • Impostare min_per_class per controllare la rappresentanza minima di ciascuna classe;
  • Impostare random_state per ottenere risultati ripetibili.

3. Esecuzione

  • Salvare la BDA Application
  • Cliccare su RUN

Il dataset risultante conterrà le righe selezionate e sarà accessibile tra le risorse.

Cosa Verificare

  • Che la colonna labelColumn esista ed abbia almeno due classi distinte;
  • Che max_samples sia sufficientemente grande per garantire min_per_class per ogni classe;
  • Che il asset distribuzione_dati sia stato prodotto.

Riferimenti