Benvenuti
Data Visualization Test
Buonasera a tutti,
mi aggancio alla richiesta di Iolanda con alcuni dubbi sull'approccio da utilizzare per effettuare gli ultimi due punti.
Non ho ancora eseguito i comandi R per eseguire la classificazione e la clusterizzazione perchè stavo cercando di capire in primis la parte teorica dell'analisi multivariata per poi procedere, spero più consapevolmente, all'esercizio proposto.
Essendo le variabili tutte o quasi categoriali, occorre dapprima procedere con ACM e poi su di essa applicare la clusterizzazione con qualche metodo di quelli proposti al corso come k.-means?
Leggendo però che i colleghi hanno problemi nell'eseguire il calcolo, non sarebbe corretto effettuare una scrematura delle variabili fra quelle attive e illustrative utilizzando solo quelle attive e poi escludere le modalità meno frequenti per evitare di incorrere in una sintesi errata che sbilancia fortemente i calcoli delle medie delle frequenze?
Mi chiedo però se le librerie di R ci aiutino già ad effettuare queste scremature oppure le dobbiamo effettuare noi con dei comandi specifici analizzando la tabella dei dati e tagliando dove serve.
La parte operativa è sicuramente quella che al momento è per me più problematica, perchè fin che si tratta di capire perchè dobbiamo fare una sintesi ci siamo, ma la sensibilità derivante alla lettura dei dati e di conseguenza l'azione più opportuna per la loro riduzione viene meno spontanea.
Come utile complemento a questo lavoro, vi allego un documento trovato in rete che tratta dell'ACM.
Grazie per ogni consiglio.
Simona
Aggiungo alle osservazioni su questa parte in merito al fatto che se non si riduce fortemente il dataset applicando l'HCPC si verificano problemi di memoria e quindi non si può proseguire.
Ora noi siamo in una fase di apprendimento quindi basta modificare il nostro obiettivo e va da se che il dataset si riduce, ma nelle attività poi reali come si gestisce il trattamento di una mole di dati più consistente?
Grazie
Gentile Simona,
le suggerisco di far girare l'analisi delle corrispondenze multiple e salvare le prime componenti principali, poi può far girare l'algoritmo kmeans che richiede un tempo e uno spazio computazionale molto basso. Per la scelta delle componenti guardate quanto vi ho appena caricato sul sito (Esercitazione di data visualization lucidi pagine 47-54).