Buongiorno a tutti, svolgendo l'esercizio di verifica in oggetto, mi sono accorto che un punto molto importante ovvero la scelta del numero del numero delle componenti principali su cui lavorare è fortemente discrezionale.
Considerato che le variabili quantitative di partenza sono 15 (che potrebbero essere anche considerate 14 togliendo Serving Size ) dopo avere eseguito i primi passi ci troviamo di fronte alla scelta del numero delle CP.
eigenvalue % of variance cumulative % of variance
comp 1 6.25155108 48.0888544 48.08885
comp 2 1.78277559 13.7136584 61.80251
comp 3 1.47667076 11.3590058 73.16152
comp 4 1.09986424 8.4604942 81.62201
.......... ................. ................. ...............
I dati sopra riportati sono l'output del comando res.pca_mc$eig eseguito a sua volta sull'output del seguente comando res.pca_mc <- PCA(mc.active, graph = FALSE) , il mio dubbio riguarda la legittimità della mia scelta di considerare "solo" 2 CP che, è vero che spiegano "solo" il 61% della variabilità, ma favoriscono la comprensibilità dell'analisi delle variabili che sono in altissima percentuale spiegate dalle prime due CP.
Stando alla teoria che consiglia di attestarsi sull'80% della varianza spiegata o sull'analisi dello Scree-Plot o anche sugli autovalori delle CP che superano 1 dovremmo prendere in considerazione 3 se non addirittura 4 CP ma, a mio avviso così facendo verremmo meno al principio cardine della ACP che ci impone di passare da p variabili a k variabili con k<<p.
Attendo le vostre osservazioni in merito e un intervento del docente.
Grazie dell'attenzione.