Benvenuti

Data Visualization Test

 
Immagine Iolanda Maggio
Data Visualization Test
di Iolanda Maggio - mercoledì, 30 agosto 2017, 12:29
 
Salve, gli ultimi due punti del test richiedevano la creazione di stili comportamentali e clustering. Abbiamo provato piu volte ad implementare prima mca e poi hcpc anche aiutandoci con il materiale del docente che ha spiegato il clustering ma per il III modulo. Nulla a molti di noi non funziona per problemi di memoria (prendendo solo le prime 50 righe sembra andare anche se lo devo far girare tutta la notte). Poiche togliere randomicamente righe senza una analisi dietro non mi sembra adeguato ad un Data Scientist volevo capire se aver usato il pacchetto ClustOfVar con hclustvar rappresenta un errore o meno. Vi ringrazio e vi saluto Iolanda Maggio
Immagine Simona Mercurio
Re: Data Visualization Test
di Simona Mercurio - sabato, 2 settembre 2017, 19:13
 

Buonasera a tutti,

mi aggancio alla richiesta di Iolanda con alcuni dubbi sull'approccio da utilizzare per effettuare gli ultimi due punti.

Non ho ancora eseguito i comandi R per eseguire la classificazione e la clusterizzazione perchè stavo cercando di capire in primis la parte teorica dell'analisi multivariata per poi procedere, spero più consapevolmente, all'esercizio proposto.

Essendo le variabili tutte o quasi categoriali, occorre dapprima procedere con ACM e poi su di essa applicare la clusterizzazione con qualche metodo di quelli proposti al corso come k.-means? 

Leggendo però che i colleghi hanno problemi nell'eseguire il calcolo, non sarebbe corretto effettuare una scrematura delle variabili fra quelle attive e illustrative utilizzando solo quelle attive e poi escludere le modalità meno frequenti per evitare di incorrere in una sintesi errata che sbilancia fortemente i calcoli delle medie delle frequenze? 

Mi chiedo però se le librerie di R ci aiutino già ad effettuare queste scremature oppure le dobbiamo effettuare noi con dei comandi specifici analizzando la tabella dei dati e tagliando dove serve.

La parte operativa è sicuramente quella che al momento è per me più problematica, perchè fin che si tratta di capire perchè dobbiamo fare una sintesi ci siamo, ma la sensibilità derivante alla lettura dei dati e di conseguenza l'azione più opportuna per la loro riduzione viene meno spontanea.


Come utile complemento a questo lavoro, vi allego un documento trovato in rete che tratta dell'ACM.

Grazie per ogni consiglio.

Simona






Immagine Simona Mercurio
Re: Data Visualization Test
di Simona Mercurio - giovedì, 28 settembre 2017, 13:09
 

Aggiungo alle osservazioni su questa parte in merito al fatto che se non si riduce fortemente il dataset applicando l'HCPC si verificano problemi di memoria e quindi non si può proseguire.

Ora noi siamo in una fase di apprendimento quindi basta modificare il nostro obiettivo e va da se che il dataset si riduce, ma nelle attività poi reali come si gestisce il trattamento di una mole di dati più consistente?

Grazie

Immagine Amministratore Utente
Re: Data Visualization Test
di Amministratore Utente - lunedì, 2 ottobre 2017, 17:36
 

Gentile Simona,

le suggerisco di far girare l'analisi delle corrispondenze multiple e salvare le prime componenti principali, poi può far girare l'algoritmo kmeans che richiede un tempo e uno spazio computazionale molto basso. Per la scelta delle componenti guardate quanto vi ho appena caricato sul sito (Esercitazione di data visualization lucidi pagine 47-54).