Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparse

auteurs

  • Bernard Anne
  • Saporta Gilbert

mots-clés

  • Sparse principal component analysis Multiple correspondence analysis
  • Dimension reduction
  • Methods multibank
  • D ecomposition values singuli eras
  • R eduction de dimension
  • Analyse en Composantes Principales sparse Analyse des Correspondances Multiples
  • D ecomposition en valeurs singuli eres
  • M ethodes multibloc

résumé

L'Analyse en Composantes Principales pour des donn ees quantitatives, et l'Analyse des Correspondances Multiples pour des donn ees qualitatives, sont des techniques de r eduction de dimension bien connues. Cependant, les composantes obtenues a l'issue de ces m ethodes sont des combinaisons de toutes les variables de d epart, ce qui rend l'interpr etation des r esultats di cile pour des donn ees de grande dimension. Pour pallier ces di cult es, nous proposons deux nouvelles m ethodes de s election de groupes de variables quantitatives et qualitatives : la "Group Sparse Principal Component Analysis" et l'ACM sparse, respectivement. La GSPCA est une extension de la SPCA-rSVD de Shen et Huang pour des donn ees structur ees par bloc. Elle utilise les liens entre l'ACP et la d ecomposition en valeurs singuli eres, a n d'extraire les composantes en r esolvant un probl eme d'approximation de matrice de rang inf erieur. Une contrainte de type "Group Lasso" est introduite dans ce probl eme de minimisation a n d'obtenir des composantes etant combinaison d'un petit nombre de groupes de variables. Les loadings d'un groupe sont mis a z ero permettant de r eduire le nombre de variables s electionn ees. La s election ne sera pas globale mais propre a chaque composante. Puisque l'ACM est un cas particulier de l'ACP pour des blocs de variables indicatrices, l'ACM sparse est d e nie comme une extension de la GSPCA. Une application de cette m ethode sera pr esent ee sur un jeu de donn ees bien connu comportant 27 races de chiens, d ecrites par 6 variables qualitatives.

plus d'information