Classification simultanée de plusieurs échantillons sous contrainte d’égalité des entropies de partition
Journal de la société française de statistique, Tome 152 (2011) no. 3, pp. 21-33.

La classification non supervisée basée sur des modèles de mélange est devenue usuelle pour identifier des sous-populations dans un jeu de données. Ici, nous nous intéressons au cas fréquent où plusieurs échantillons provenant de populations distinctes doivent être classifiés en des partitions a priori de même signification. Nous supposons que le pouvoir discriminant des variables décrivant spécifiquement les différents échantillons est globalement égal. Nous traduisons cette hypothèse en imposant que l’entropie de la partition soit homogène d’une population à l’autre, ce qui nous conduit à une méthode de classification dite simultanée. Un algorithme inspiré d’EM, et baptisé E ˜ M , permet de réaliser cette estimation par maximum de vraisemblance sous contrainte, pour n’importe quel modèle de mélange puisque la contrainte entropique est active uniquement à l’étape E. Des résultats expérimentaux obtenus sur des données simulées d’une part et sur des données réelles issues de la biologie d’autre part, illustrent le potentiel de notre approche.

Model-based clustering is now a standard tool for revealing some subpopulations in a data set. We focus here on the frequent situation where several data sets have to be classified into partitions with a priori identical meanings. We assume that the discriminant ability of the variables involved specifically in the different data sets, is globally invariant. This assumption is formalized by setting that the entropy of the partition is homogeneous through the populations, which leads us to a so-called simultaneous clustering method. A pseudo EM algorithm, called E ˜ M , allows to perform this maximum likelihood estimation under constraint for any mixture model since the entropic constraint is only involved in the E step. A real numerical example on biological data leads to encouraging results.

Mot clés : modèles de mélange, algorithme EM, lien entre populations, données biologiques
Keywords: mixture models, EM algorithm, link between populations, biological data
@article{JSFS_2011__152_3_21_0,
     author = {Lourme, Alexandre and Biernacki, Christophe},
     title = {Classification simultan\'ee de plusieurs \'echantillons  sous contrainte d{\textquoteright}\'egalit\'e des entropies de partition},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {21--33},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {152},
     number = {3},
     year = {2011},
     mrnumber = {2871175},
     zbl = {1316.62091},
     language = {fr},
     url = {http://archive.numdam.org/item/JSFS_2011__152_3_21_0/}
}
TY  - JOUR
AU  - Lourme, Alexandre
AU  - Biernacki, Christophe
TI  - Classification simultanée de plusieurs échantillons  sous contrainte d’égalité des entropies de partition
JO  - Journal de la société française de statistique
PY  - 2011
SP  - 21
EP  - 33
VL  - 152
IS  - 3
PB  - Société française de statistique
UR  - http://archive.numdam.org/item/JSFS_2011__152_3_21_0/
LA  - fr
ID  - JSFS_2011__152_3_21_0
ER  - 
%0 Journal Article
%A Lourme, Alexandre
%A Biernacki, Christophe
%T Classification simultanée de plusieurs échantillons  sous contrainte d’égalité des entropies de partition
%J Journal de la société française de statistique
%D 2011
%P 21-33
%V 152
%N 3
%I Société française de statistique
%U http://archive.numdam.org/item/JSFS_2011__152_3_21_0/
%G fr
%F JSFS_2011__152_3_21_0
Lourme, Alexandre; Biernacki, Christophe. Classification simultanée de plusieurs échantillons  sous contrainte d’égalité des entropies de partition. Journal de la société française de statistique, Tome 152 (2011) no. 3, pp. 21-33. http://archive.numdam.org/item/JSFS_2011__152_3_21_0/

[1] Biernacki, C.; Castellan, G. A Data-Driven Bound on Variances for Avoiding Degeneracy in Univariate Gaussian Mixtures, Pub. IRMA Lille, Volume 71-IV (2011)

[2] Biernacki, C.; Celeux, G.; Govaert, G. Exact and Monte Carlo Calculations of Integrated Likelihoods for the Latent Class Model, Journal of Statistical Planning and Inference, Volume 140 (2010), pp. 2991-3002 | MR | Zbl

[3] Banfield, J. D.; Raftery, A. E. Model-Based Gaussian and Non-Gaussian Clustering, Biometrics, Volume 49 (1993) no. 3, pp. 803-821 | MR | Zbl

[4] Bretagnolle, V. Personal communication (2007) (source : Museum)

[5] Celeux, G.; Govaert, G. Clustering criteria for discrete data and latent class models, Journal of Classification, Volume 8 (1991) no. 2, p. 157-–176 | Zbl

[6] Celeux, G.; Govaert, G. Gaussian Parsimonious Clustering Models, Pattern Recognition, Volume 28 (1995) no. 5, pp. 781-793

[7] Du Jardin, P.; Séverin, E. Dynamic analysis of the business failure process : a study of bankruptcy trajectories, Portuguese Finance Network, Ponte Delgada, Portugal (2010)

[8] Dempster, A. P.; Laird, N. M.; Rubin, D. B. Maximum Likelihood from Incomplete Data via the EM Algorithm (with discussion), Journal of the Royal Statistical Society, Volume B 39 (1977) no. 1, pp. 1-38 | MR | Zbl

[9] Goodman, L. A. Exploratory Latent Structure Models using both Identifiable and Unidentifiable Models, Biometrika, Volume 61 (1974) no. 2, pp. 215-231 | MR | Zbl

[10] Hathaway, R. J. Another interpretation of the EM algorithm for mixture distributions, Statistics & Probability Letters, Volume 4 (1986), pp. 53-56 | MR | Zbl

[11] Karlis, D. An EM algorithm for multivariate Poisson distribution and related models, Journal of Applied Statistics, Volume 30 (2003) no. 1, pp. 63-77 | MR | Zbl

[12] Lourme, A.; Biernacki, C. Simultaneous Gaussian Model-Based Clustering for Samples of Multiple Origins, Pub. IRMA Lille, Volume 70-VII (2010) | Zbl

[13] Lourme, A.; Biernacki, C. Simultaneous t -Model-Based Clustering for Data Differing over Time Period : Application for Understanding Companies Financial Health, Case Studies in Business, Industry and Government Statistics (CSBIGS) (2011) (in press)

[14] Lebarbier, E.; Mary-Huard, T. Une introduction au critère BIC : fondements théoriques et interprétation, Journal de la SFdS, Volume 147 (2006) no. 1, pp. 39-57 | Numdam | MR | Zbl

[15] Mardia, K. S.; Jupp, P. E. Directional Statistics, Wiley, New York, 2000 | MR | Zbl

[16] Murphy, T. B.; Martin, D. Mixtures of distance-based models for ranking data, Comput. Statist. Data Anal., Volume 41 (2003) no. 3-4, pp. 645-655 | MR | Zbl

[17] McLachlan, G. J.; Peel, D. Finite Mixture Models, Wiley, New York, 2000 | MR | Zbl

[18] Schork, N. J.; Allison, D. B.; Thiel, B. Mixture distributions in human genetics research, Statistical Methods in Medical Research, Volume 5 (1996) no. 2, pp. 155-178

[19] Schwarz, G. Estimating the Dimension of a Model, Annals of Statistics, Volume 6 (1978) no. 2, pp. 461-464 | MR | Zbl

[20] Thibault, J.C.; Bretagnolle, V.; Rabouam, C. Calonectris diomedea Cory’s shearwater, Birds of Western Palearctic Update, Volume 1 (1997) no. 2, pp. 75-98