Two hierarchical classifications are built on the sets et of a two-way contingency table , using a new algorithm building each node from a particular correspondence analysis. In a second step, the classes of these two hierarchies are optimized through a type k-means procedure. Then, a pruning algorithm allows us to restrict the optimized trees to their significant nodes. Finally, the optimized and pruned hierarchies are mutually interpreted, each significant association being revealed through an exact conditional test based on the hypergeometric model. The methodogogy is then applied to the contingency table crossing departements and candidates to the 1995 presidential election.
Etant donné un tableau de contingence , deux classifications hiérarchiques sont construites indépendamment sur et selon un algorithme particulier où chaque nœud obtenu est issu d’une analyse des correspondances particulière. Un algorithme d’optimisation du type de celui des nuées dynamiques est ensuite appliqué aux classes de chacune des deux hiérarchies. Enfin, une procédure d’élagage des branches permet de se séparer des nœuds non significatifs. Les deux hiérarchies optimisées et élaguées sont ensuite interprétées mutuellement, chaque association significative étant révelée par un test conditionnel exact basé sur un modèle hypergéométrique. Un exemple d’application au tableau de contingence croisant départements et candidats à l’élection présidentielle de 1995 est ensuite mené.
Keywords: contingency table, hierarchical classification, correspondence analysis, exact conditional test, optimization, pruning techniques
@article{JSFS_2007__148_3_37_0, author = {Denimal, Jean-Jacques}, title = {Classification factorielle hi\'erarchique optimis\'ee des lignes et des colonnes d'un tableau de contingence}, journal = {Journal de la Soci\'et\'e fran\c{c}aise de statistique & Revue de statistique appliqu\'ee}, pages = {37--70}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {148}, number = {3}, year = {2007}, language = {fr}, url = {http://archive.numdam.org/item/JSFS_2007__148_3_37_0/} }
TY - JOUR AU - Denimal, Jean-Jacques TI - Classification factorielle hiérarchique optimisée des lignes et des colonnes d'un tableau de contingence JO - Journal de la Société française de statistique & Revue de statistique appliquée PY - 2007 SP - 37 EP - 70 VL - 148 IS - 3 PB - Société française de statistique UR - http://archive.numdam.org/item/JSFS_2007__148_3_37_0/ LA - fr ID - JSFS_2007__148_3_37_0 ER -
%0 Journal Article %A Denimal, Jean-Jacques %T Classification factorielle hiérarchique optimisée des lignes et des colonnes d'un tableau de contingence %J Journal de la Société française de statistique & Revue de statistique appliquée %D 2007 %P 37-70 %V 148 %N 3 %I Société française de statistique %U http://archive.numdam.org/item/JSFS_2007__148_3_37_0/ %G fr %F JSFS_2007__148_3_37_0
Denimal, Jean-Jacques. Classification factorielle hiérarchique optimisée des lignes et des colonnes d'un tableau de contingence. Journal de la Société française de statistique & Revue de statistique appliquée, Volume 148 (2007) no. 3, pp. 37-70. http://archive.numdam.org/item/JSFS_2007__148_3_37_0/
[1] L'Analyse des Données (Volumes I and II). Dunod, Paris. | Zbl
(1976).[2] Large data set clustering methods using the concept of space contraction. Compstat. 3, Physika Verlag, Vienna, pp 239-245.
(1978).[3] L'analyse des données évolutives. Technip.
, (1996).[4] Correspondances hiérarchiques : une nouvelle approche 15-19 mai 2000. Fès, Maroc.
(2000).[5] Hierarchical factorial analysis. 10th International Symposium on Applied Stochastic Models and Data Analysis. 12-15 juin 2001. Compiègne.
(2001).[6] Exact conditional tests for a reciprocal interpretation of hierarchical classifications built on a txwo-way contingency table 3-4, pp 157,178. | MR | Zbl
, (2001).[7] Classification factorielle optimisée d'un tableau de mesures. Revue de Statistique Appliquée (à paraître).
(2007).[8] Une nouvelle méthode en classification automatique et reconnaissance des formes | Numdam
(1971).[9] Counting the number of rc contingency tables with fixed margins. Journal of the American Statistical Association, Vol. 72, n, pp 859,863. | MR | Zbl
, (1977).[10]
,(1984). Classification simultanée de tableaux binaires. Data Analysis and Informatics, 4, Diday et al. Eds, North Holland,pp 223,236.[11] Classification automatique hiérarchique selon les voisins réciproques | Numdam | Zbl
(1982).[12] The Chi-squared distribution. John Wiley and Sons, New York. | MR | Zbl
(1969).[13] Statistique exploratoire multidimensionnelle.Dunod, Paris. | Zbl
, , (1995).[14] A network algorithm for performing Fisher’s exact test in rc contingency tables. Journal of the American Statistical Association, Vol. 78, n, pp 427,434. | MR | Zbl
, (1983).[15] An efficient method of generaing random rc tables with given row and column totals. Applied Statistics, Vol. 30, pp 91,97. | Zbl
(1981).[16] The analysis of categorical data. Second Edition, Griffin, London. | MR | Zbl
(1981).[17] Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58, pp 236-244. | MR
(1963).