Denimal, Jean-Jacques
Classification factorielle hiérarchique optimisée des lignes et des colonnes d'un tableau de contingence
Journal de la société française de statistique, Tome 148 (2007) no. 3 , p. 37-70
URL stable : http://www.numdam.org/item?id=JSFS_2007__148_3_37_0

Mots clés: tableau de contingence, classification hiérarchique, analyse des correspondances, test conditionnel exact, optimisation, élagage
Etant donné un tableau de contingence k IJ , deux classifications hiérarchiques sont construites indépendamment sur I et J selon un algorithme particulier où chaque nœud obtenu est issu d’une analyse des correspondances particulière. Un algorithme d’optimisation du type de celui des nuées dynamiques est ensuite appliqué aux classes de chacune des deux hiérarchies. Enfin, une procédure d’élagage des branches permet de se séparer des nœuds non significatifs. Les deux hiérarchies optimisées et élaguées sont ensuite interprétées mutuellement, chaque association significative étant révelée par un test conditionnel exact basé sur un modèle hypergéométrique. Un exemple d’application au tableau de contingence croisant départements et candidats à l’élection présidentielle de 1995 est ensuite mené.
Two hierarchical classifications are built on the sets I et J of a two-way contingency table k IJ , using a new algorithm building each node from a particular correspondence analysis. In a second step, the classes of these two hierarchies are optimized through a type k-means procedure. Then, a pruning algorithm allows us to restrict the optimized trees to their significant nodes. Finally, the optimized and pruned hierarchies are mutually interpreted, each significant association being revealed through an exact conditional test based on the hypergeometric model. The methodogogy is then applied to the contingency table crossing departements and candidates to the 1995 presidential election.

Bibliographie

[1] Benzecri J.P. (1976). L'Analyse des Données (Volumes I and II). Dunod, Paris. Zbl 0503.62003

[2] Bruynooghe M. (1978). Large data set clustering methods using the concept of space contraction. Compstat. 3, Physika Verlag, Vienna, pp 239-245.

[3] Dazy F., Le Barzic J.F. (1996). L'analyse des données évolutives. Technip.

[4] Denimal J.J. (2000). Correspondances hiérarchiques : une nouvelle approche 15-19 mai 2000. Fès, Maroc.

[5] Denimal J.J. (2001). Hierarchical factorial analysis. 10th International Symposium on Applied Stochastic Models and Data Analysis. 12-15 juin 2001. Compiègne.

[6] Denimal J.J., Camiz S. (2001). Exact conditional tests for a reciprocal interpretation of hierarchical classifications built on a txwo-way contingency table 3-4, pp 157,178. MR 1889707 | Zbl 1003.62525

[7] Denimal J.J. (2007). Classification factorielle optimisée d'un tableau de mesures. Revue de Statistique Appliquée (à paraître).

[8] Diday E. (1971). Une nouvelle méthode en classification automatique et reconnaissance des formes Numdam |

[9] Gail M., Mantel N. (1977). Counting the number of r×c contingency tables with fixed margins. Journal of the American Statistical Association, Vol. 72, n 360, pp 859,863. MR 461792 | Zbl 0372.62042

[10] Govaert G.,(1984). Classification simultanée de tableaux binaires. Data Analysis and Informatics, 4, Diday et al. Eds, North Holland,pp 223,236.

[11] Juan J. (1982). Classification automatique hiérarchique selon les voisins réciproques Numdam | Zbl 0505.62041

[12] Lancaster H.O. (1969). The Chi-squared distribution. John Wiley and Sons, New York. MR 253452 | Zbl 0193.17802

[13] Lebart L., Morineau A., Piron M. (1995). Statistique exploratoire multidimensionnelle.Dunod, Paris. Zbl 0920.62077

[14] Mehta C.R., Patel N.R. (1983). A network algorithm for performing Fisher’s exact test in r×c contingency tables. Journal of the American Statistical Association, Vol. 78, n 382, pp 427,434. MR 711119 | Zbl 0545.62039

[15] Patefield W.M. (1981). An efficient method of generaing random r×c tables with given row and column totals. Applied Statistics, Vol. 30, pp 91,97. Zbl 0467.62050

[16] Plackett R.L. (1981). The analysis of categorical data. Second Edition, Griffin, London. MR 636258 | Zbl 0479.62046

[17] Ward J.H. (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58, pp 236-244. MR 148188