Analyse en composantes principales sparse pour données multiblocs et extension à l'analyse des correspondances multiples sparse

auteurs

  • Bernard Anne
  • Saporta Gilbert

mots-clés

  • Sparse principal component analysis
  • Multiple correspondence analysis
  • Dimension reduction
  • Methods multibank
  • Singular Value Decomposition
  • Analyse en Composantes Principales sparse
  • Analyse des Correspondances Multiples
  • Décomposition en valeurs singulières
  • Méthodes multibloc
  • Réduction de dimension

résumé

L'Analyse en Composantes Principales pour des donn ees quantitatives, et l'Analyse des Correspondances Multiples pour des donn ees qualitatives, sont des techniques de r eduction de dimension bien connues. Cependant, les composantes obtenues a l'issue de ces m ethodes sont des combinaisons de toutes les variables de d epart, ce qui rend l'interprétation des résultats difficile pour des données de grande dimension. Pour pallier ces difficultés, nous proposons deux nouvelles méthodes de sélection de groupes de variables quantitatives et qualitatives : la "Group Sparse Principal Component Analysis" et l'ACM sparse, respectivement. La GSPCA est une extension de la SPCA-rSVD de Shen et Huang pour des données structurées par bloc. Elle utilise les liens entre l'ACP et la décomposition en valeurs singulières, afin d'extraire les composantes en résolvant un problème d'approximation de matrice de rang inférieur. Une contrainte de type "Group Lasso" est introduite dans ce problème de minimisation afin d'obtenir des composantes étant combinaison d'un petit nombre de groupes de variables. Les loadings d'un groupe sont mis à zéro permettant de réduire le nombre de variables sélectionnées. La sélection ne sera pas globale mais propre à chaque composante. Puisque l'ACM est un cas particulier de l'ACP pour des blocs de variables indicatrices, l'ACM sparse est dénié comme une extension de la GSPCA. Une application de cette méthode sera présentée sur un jeu de données bien connu comportant 27 races de chiens, décrites par 6 variables qualitatives.

plus d'information