Classification factorielle hiérarchique optimisée d'un tableau de mesures
Journal de la Société française de statistique & Revue de statistique appliquée, Tome 148 (2007) no. 2, pp. 29-63.

L'analyse d'un tableau de mesures est généralement basée sur l'utilisation de l'analyse en composantes principales et de techniques de classification appliquées aux lignes et aux colonnes du tableau. Le dépouillement des résultats générés par ces analyses et surtout leur synthèse représentent souvent pour l'utilisateur un travail long et pénible principalement lorsque les dimensions du tableau sont élevées. La méthodologie proposée dans cet article permet de construire conjointement les axes factoriels et les noeuds des hiérarchies, facilitant ainsi leurs interprétations. Des étapes d'optimisation et d'élagage permettent d'obtenir les meilleures hiérarchies possibles restreintes à leurs noeuds significatifs. Un exemple d'application est également proposé en fin d'article.

The analysis of an ordinary table crossing units and variables is generally obtained from the use of different statistical techniques: Principal Component Analysis, Classifications applied to rows and columns of the table. When the dimensions of the table become large, the study of all the results given by these procedures and more particularly their synthesis may represent a long and tedious work. In the methodology proposed in this paper, factorial axes and hierarchy nodes are jointly built , making easier their interpretations. Optimization and pruning techniques allow us to obtain the best possible hierarchies restricted to their significative nodes. An application of the methodology to Russett data is proposed at the end of the paper.

Mot clés : classification hiérarchique, optimisation, élagage, validation croisée, test de permutation, plans factoriels
Mots clés : hierarchical classification, optimization, pruning techniques, factorial representations, cross-validation, permutation test
@article{JSFS_2007__148_2_29_0,
     author = {Denimal, Jean-Jacques},
     title = {Classification factorielle hi\'erarchique optimis\'ee d'un tableau de mesures},
     journal = {Journal de la Soci\'et\'e fran\c{c}aise de statistique & Revue de statistique appliqu\'ee},
     pages = {29--63},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {148},
     number = {2},
     year = {2007},
     language = {fr},
     url = {http://archive.numdam.org/item/JSFS_2007__148_2_29_0/}
}
TY  - JOUR
AU  - Denimal, Jean-Jacques
TI  - Classification factorielle hiérarchique optimisée d'un tableau de mesures
JO  - Journal de la Société française de statistique & Revue de statistique appliquée
PY  - 2007
SP  - 29
EP  - 63
VL  - 148
IS  - 2
PB  - Société française de statistique
UR  - http://archive.numdam.org/item/JSFS_2007__148_2_29_0/
LA  - fr
ID  - JSFS_2007__148_2_29_0
ER  - 
%0 Journal Article
%A Denimal, Jean-Jacques
%T Classification factorielle hiérarchique optimisée d'un tableau de mesures
%J Journal de la Société française de statistique & Revue de statistique appliquée
%D 2007
%P 29-63
%V 148
%N 2
%I Société française de statistique
%U http://archive.numdam.org/item/JSFS_2007__148_2_29_0/
%G fr
%F JSFS_2007__148_2_29_0
Denimal, Jean-Jacques. Classification factorielle hiérarchique optimisée d'un tableau de mesures. Journal de la Société française de statistique & Revue de statistique appliquée, Tome 148 (2007) no. 2, pp. 29-63. http://archive.numdam.org/item/JSFS_2007__148_2_29_0/

[1] Bencheikh Y.K. (1992). Classification automatique et modèles. Thèse Université de Metz.

[2] Bencheikh Y.K. (2004). Classification croisée et mélanges sur données quantitatives. Revue de Statistique Appliquée, LII(2), 71-86.

[3] Benzecri J.-P. (1976). L'Analyse des Données (Volumes I and II). Dunod, Paris. | Zbl

[4] Benzecri J.-P., Jambu M., Lebeaux M.O. (1980). Aides à l'interprétation en classification automatique. Les cahiers de l'analyse des données, 5, 1, pp.101-123.

[5] Bruynooghe M. (1978). Large data set clustering methods using the concept of space contraction. Compstat. 3, Physika Verlag, Vienna, pp 239-245.

[6] Cazes P. (1984). Correspondances hiérarchiques et ensembles associés 43-44, pp 43-142.

[7] Celeux G. (1988). Classification et modèles. Revue de Statistique Appliquée, XXXVI (4), 43-58 | Numdam | MR | Zbl

[8] Denimal J.J. (2000). Correspondances hiérarchiques : une nouvelle approche 15-19 mai 2000. Fès, Maroc.

[9] Denimal J.J. (2001). Hierarchical factorial analysis. 10th International Symposium on Applied Stochastic Models and Data Analysis. 12-15 juin 2001. Compiègne.

[10] Diday E. (1979). Optimisation en classification automatique. INRIA, Paris. | Zbl

[11] Gifi A. (1990). Non linear multivariate analysis. John Wiley&sons, chichester. | Zbl

[12] Govaert G. (1983). Classification croisée. Thèse d'Etat, Université Pierre et Marie Curie, Paris 6.

[13] Jambu M., Lebeaux M.O. (1978). Classification automatique pour l'analyse des données. Dunod, Paris. | MR | Zbl

[14] Juan J. (1982). Classification automatique hiérarchique selon les voisins réciproques. Les cahiers de l'analyse des données, Vol 7, no 2. | Numdam | Zbl

[15] Lebart L., Morineau A., Warwick K.M. (1984). Multivariate descriptive statistical analysis. New York, Wiley. | MR | Zbl

[16] Lerman I.C. (1979). Les représentations factorielles de la classification. R.A.I.RO., Vol 13, no 2 et no 3. | Numdam | Zbl

[17] Lerman I.C. (1991). Foundations of the Likelihood Linkage Analysis (LLA) classification method. Applied Stochastic Models and Data Analysis, Vol.7, pp 63-76. | MR | Zbl

[18] Qannari E.M., Vigneau F., Courcoux Ph. (1999). Classification des variables autour de composantes principales. Applications. XXXIe Journées de Statistiques, 17-21 mai 1999. Grenoble.

[19] Rao C.R., (1964). The use and interpretation of Principal Component Analysis in Applied Research. Sankhya A, 26, pp 329-358. | MR | Zbl

[20] Russett B.M. (1964). Inequality and Instability. World Politics, 21, pp 442, 454.

[21] Sas/Stat (1996). User's guide, SAS institute Inc., Cary, Nc, USA.

[22] Tenenhaus M. (1998). La régression PLS. Editions Technip. | MR | Zbl

[23] Tille Y. (2001). Théorie des sondages. Dunod.

[24] Umetrics Academy (1996). SIMCA-P for WINDOWS. Graphical Software for multivariate Process Modeling.

[25] Van Der Vaart A.W. (2000). Asymptotic Statistics. Cambridge University Press. | Zbl

[26] Ward J.H., (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58, pp 236-244. | MR

[27] Wold H. (1985). Partial least squares. Encyclopedia of statistical Sciences, vol 6, Kotz S. & Johnson N.L. (Eds), John Wiley & sons, New York, pp 581, 591.