Benvenuti

Data Mining con R

 
Immagine Sandro Stancampiano
Data Mining con R
di Sandro Stancampiano - martedì, 26 settembre 2017, 16:27
 

Buongiorno a tutti, svolgendo l'esercizio di verifica in oggetto, mi sono accorto che un punto molto importante ovvero la scelta del numero del numero delle componenti principali su cui lavorare è fortemente discrezionale. 

Considerato che le variabili quantitative di partenza sono 15 (che potrebbero essere anche considerate 14 togliendo Serving Size ) dopo avere eseguito i primi passi ci troviamo di fronte alla scelta del numero delle CP.

            eigenvalue              % of variance                cumulative % of variance

comp 1  6.25155108             48.0888544                          48.08885

comp 2  1.78277559             13.7136584                          61.80251

comp 3  1.47667076             11.3590058                          73.16152

comp 4  1.09986424              8.4604942                          81.62201

..........     .................              .................                          ...............

I dati sopra riportati sono l'output del comando res.pca_mc$eig eseguito a sua volta sull'output del seguente comando res.pca_mc <- PCA(mc.active, graph = FALSE) , il mio dubbio riguarda la legittimità della mia scelta di considerare "solo" 2 CP che, è vero che spiegano "solo" il 61% della variabilità, ma favoriscono la comprensibilità dell'analisi delle variabili che sono in altissima percentuale spiegate dalle prime due CP. 

Stando alla teoria che consiglia di attestarsi sull'80% della varianza spiegata o sull'analisi dello Scree-Plot o anche sugli autovalori delle CP che superano 1 dovremmo prendere in considerazione 3 se non addirittura 4 CP ma, a mio avviso così facendo verremmo meno al principio cardine della ACP che ci impone di passare da p variabili a k variabili con k<<p.

Attendo le vostre osservazioni in merito e un intervento del docente.

Grazie dell'attenzione.

Immagine Sandro Stancampiano
Re: Data Mining con R
di Sandro Stancampiano - sabato, 30 settembre 2017, 11:01
 

Ciao a tutti, provo a rispondermi da solo. Dopo aver approfondito la teoria ho deciso di considerare le prime 4 CP. Interpretarne solo due sarebbe eccessivamente riduttivo.

Buona domenica.

Immagine Amministratore Utente
Re: Data Mining con R
di Amministratore Utente - lunedì, 2 ottobre 2017, 18:18
 

La scelta del numero di componenti è estremamente discrezionale. Ho provato a fare una sintesi sulle possibili interpretazioni degli assi fattoriali nel caso dell'analisi MCA (pag. 47 - 54 dei lucidi file Esercitazione Data Visualization).

Per l'ACP i metodi sono essenzialmente 3 (molto simili all'analisi MCA) 1. Scree plot;2. Variabilità spiegata; 3 Criterio di Kaiser. Vi allego un documento con alcune indicazioni dettagliate

Immagine Sandro Stancampiano
Re: Data Mining con R
di Sandro Stancampiano - martedì, 3 ottobre 2017, 22:17
 

Grazie della risposta, infatti dalla tabella pubblicata nel mio primo post seguendo le regole che abbiamo visto a lezione ci troviamo a "dover" scegliere le 4 CP con autovalori >1 e anche per avere una visione che vada oltre l'80% della varianza.