Classification factorielle hiérarchique optimisée d'un tableau de mesures
Journal de la société française de statistique, Tome 148 (2007) no. 2, p. 29-63
L'analyse d'un tableau de mesures est généralement basée sur l'utilisation de l'analyse en composantes principales et de techniques de classification appliquées aux lignes et aux colonnes du tableau. Le dépouillement des résultats générés par ces analyses et surtout leur synthèse représentent souvent pour l'utilisateur un travail long et pénible principalement lorsque les dimensions du tableau sont élevées. La méthodologie proposée dans cet article permet de construire conjointement les axes factoriels et les noeuds des hiérarchies, facilitant ainsi leurs interprétations. Des étapes d'optimisation et d'élagage permettent d'obtenir les meilleures hiérarchies possibles restreintes à leurs noeuds significatifs. Un exemple d'application est également proposé en fin d'article.
The analysis of an ordinary table crossing units and variables is generally obtained from the use of different statistical techniques: Principal Component Analysis, Classifications applied to rows and columns of the table. When the dimensions of the table become large, the study of all the results given by these procedures and more particularly their synthesis may represent a long and tedious work. In the methodology proposed in this paper, factorial axes and hierarchy nodes are jointly built , making easier their interpretations. Optimization and pruning techniques allow us to obtain the best possible hierarchies restricted to their significative nodes. An application of the methodology to Russett data is proposed at the end of the paper.
Mots clés: classification hiérarchique, optimisation, élagage, validation croisée, test de permutation, plans factoriels
@article{JSFS_2007__148_2_29_0,
     author = {Denimal, Jean-Jacques},
     title = {Classification factorielle hi\'erarchique optimis\'ee d'un tableau de mesures},
     journal = {Journal de la soci\'et\'e fran\c caise de statistique},
     publisher = {Soci\'et\'e fran\c caise de statistique},
     volume = {148},
     number = {2},
     year = {2007},
     pages = {29-63},
     language = {fr},
     url = {http://www.numdam.org/item/JSFS_2007__148_2_29_0}
}
Denimal, Jean-Jacques. Classification factorielle hiérarchique optimisée d'un tableau de mesures. Journal de la société française de statistique, Tome 148 (2007) no. 2, pp. 29-63. http://www.numdam.org/item/JSFS_2007__148_2_29_0/

[1] Bencheikh Y.K. (1992). Classification automatique et modèles. Thèse Université de Metz.

[2] Bencheikh Y.K. (2004). Classification croisée et mélanges sur données quantitatives. Revue de Statistique Appliquée, LII(2), 71-86.

[3] Benzecri J.-P. (1976). L'Analyse des Données (Volumes I and II). Dunod, Paris. | Zbl 0503.62003

[4] Benzecri J.-P., Jambu M., Lebeaux M.O. (1980). Aides à l'interprétation en classification automatique. Les cahiers de l'analyse des données, 5, 1, pp.101-123.

[5] Bruynooghe M. (1978). Large data set clustering methods using the concept of space contraction. Compstat. 3, Physika Verlag, Vienna, pp 239-245.

[6] Cazes P. (1984). Correspondances hiérarchiques et ensembles associés 43-44, pp 43-142.

[7] Celeux G. (1988). Classification et modèles. Revue de Statistique Appliquée, XXXVI (4), 43-58 | Numdam | MR 983857 | Zbl 0972.62527

[8] Denimal J.J. (2000). Correspondances hiérarchiques : une nouvelle approche 15-19 mai 2000. Fès, Maroc.

[9] Denimal J.J. (2001). Hierarchical factorial analysis. 10th International Symposium on Applied Stochastic Models and Data Analysis. 12-15 juin 2001. Compiègne.

[10] Diday E. (1979). Optimisation en classification automatique. INRIA, Paris. | Zbl 0471.62056

[11] Gifi A. (1990). Non linear multivariate analysis. John Wiley&sons, chichester. | Zbl 0697.62048

[12] Govaert G. (1983). Classification croisée. Thèse d'Etat, Université Pierre et Marie Curie, Paris 6.

[13] Jambu M., Lebeaux M.O. (1978). Classification automatique pour l'analyse des données. Dunod, Paris. | MR 634959 | Zbl 0419.62058

[14] Juan J. (1982). Classification automatique hiérarchique selon les voisins réciproques. Les cahiers de l'analyse des données, Vol 7, no 2. | Numdam | Zbl 0505.62041

[15] Lebart L., Morineau A., Warwick K.M. (1984). Multivariate descriptive statistical analysis. New York, Wiley. | MR 744990 | Zbl 0658.62069

[16] Lerman I.C. (1979). Les représentations factorielles de la classification. R.A.I.RO., Vol 13, no 2 et no 3. | Numdam | Zbl 0408.62051

[17] Lerman I.C. (1991). Foundations of the Likelihood Linkage Analysis (LLA) classification method. Applied Stochastic Models and Data Analysis, Vol.7, pp 63-76. | MR 1105871 | Zbl 0800.62320

[18] Qannari E.M., Vigneau F., Courcoux Ph. (1999). Classification des variables autour de composantes principales. Applications. XXXIe Journées de Statistiques, 17-21 mai 1999. Grenoble.

[19] Rao C.R., (1964). The use and interpretation of Principal Component Analysis in Applied Research. Sankhya A, 26, pp 329-358. | MR 184375 | Zbl 0137.37207

[20] Russett B.M. (1964). Inequality and Instability. World Politics, 21, pp 442, 454.

[21] Sas/Stat (1996). User's guide, SAS institute Inc., Cary, Nc, USA.

[22] Tenenhaus M. (1998). La régression PLS. Editions Technip. | MR 1645125 | Zbl 0923.62058

[23] Tille Y. (2001). Théorie des sondages. Dunod.

[24] Umetrics Academy (1996). SIMCA-P for WINDOWS. Graphical Software for multivariate Process Modeling.

[25] Van Der Vaart A.W. (2000). Asymptotic Statistics. Cambridge University Press. | Zbl 0910.62001

[26] Ward J.H., (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58, pp 236-244. | MR 148188

[27] Wold H. (1985). Partial least squares. Encyclopedia of statistical Sciences, vol 6, Kotz S. & Johnson N.L. (Eds), John Wiley & sons, New York, pp 581, 591.