Nous considérons le cas d’une enquête agriculture/environnement dont les données sont relatives aux transformations actuelles du métier d’agriculteur. Nous optons pour une démarche originale en remplaçant la première étape classique d’analyse factorielle par un algorithme de classification de variables. L’objectif de la classification de variables est de construire des classes de variables fortement liées entre elles et de supprimer ainsi l’information redondante. L’approche ClustOfVar utilisée fournit simultanément des groupes de variables ainsi que les variables synthétiques associées aux classes de variables. Dans cet algorithme, le critère d’homogénéité repose sur la notion de corrélation pour les variables quantitatives et de rapport de corrélation pour les variables qualitatives. L’étape de classification de variables nous permet d’obtenir des variables synthétiques que nous proposons de lire comme une sorte de gradient. Sur nos données, les valeurs correspondent à des regroupements de modalités distincts et pertinents pour l’interprétation. Cette démarche nous permet de lire et d’étiqueter chaque variable synthétique. Nous mettons ainsi en évidence des tendances qui vont départager l’opinion des agriculteurs quant à leur prise en compte de l’environnement. Puis nous précisons ces résultats en réalisant une classification sur les scores des individus mesurés sur les variables synthétiques. Sur le plan sociologique, l’apport des variables synthétiques pour interpréter les profils-types obtenus est incontestable.
A survey on farming and environment dealing with the current transformations of the farmer job is considered. We propose to replace the usual data mining strategy which consists of applying Multiple Correspondence Analysis by a variable clustering approach. Clustering of variables aims at lumping together variables which are strongly related to each other and thus bring the same information. The ClustOfVar approach used in this paper provides at the same time groups of variables and their associated synthetic variables. In this algorithm, the homogeneity criterion of a cluster is defined by the squared Pearson correlation for the quantitative variables and by the correlation ratio for the qualitative variables. The step of variable clustering enables to get synthetic variables that can be read as a gradient. In our case study, values correspond to some relevant groupings of categories. This enables to interpret and name easily the synthetic variables. Trends in the opinion of farmers are thus highlighted with the variable clustering approach. Then we clarify these first results by applying a clustering method on the scores of the individuals measured by the synthetic variables. At the sociological level, the supply provided by the synthetic variables to interpret the clusters of farmers is obvious.
Keywords: variable clustering, synthetic variables, typology of farmers, environment
@article{JSFS_2013__154_2_37_0, author = {Kuentz-Simonet, Vanessa and Lyser, Sandrine and Candau, Jacqueline and Deuffic, Philippe and Chavent, Marie and Saracco, J\'er\^ome}, title = {Une approche par classification de variables pour la typologie d{\textquoteright}observations~: le cas d{\textquoteright}une enqu\^ete agriculture et environnement}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {37--63}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {154}, number = {2}, year = {2013}, zbl = {1316.62090}, language = {fr}, url = {http://archive.numdam.org/item/JSFS_2013__154_2_37_0/} }
TY - JOUR AU - Kuentz-Simonet, Vanessa AU - Lyser, Sandrine AU - Candau, Jacqueline AU - Deuffic, Philippe AU - Chavent, Marie AU - Saracco, Jérôme TI - Une approche par classification de variables pour la typologie d’observations : le cas d’une enquête agriculture et environnement JO - Journal de la société française de statistique PY - 2013 SP - 37 EP - 63 VL - 154 IS - 2 PB - Société française de statistique UR - http://archive.numdam.org/item/JSFS_2013__154_2_37_0/ LA - fr ID - JSFS_2013__154_2_37_0 ER -
%0 Journal Article %A Kuentz-Simonet, Vanessa %A Lyser, Sandrine %A Candau, Jacqueline %A Deuffic, Philippe %A Chavent, Marie %A Saracco, Jérôme %T Une approche par classification de variables pour la typologie d’observations : le cas d’une enquête agriculture et environnement %J Journal de la société française de statistique %D 2013 %P 37-63 %V 154 %N 2 %I Société française de statistique %U http://archive.numdam.org/item/JSFS_2013__154_2_37_0/ %G fr %F JSFS_2013__154_2_37_0
Kuentz-Simonet, Vanessa; Lyser, Sandrine; Candau, Jacqueline; Deuffic, Philippe; Chavent, Marie; Saracco, Jérôme. Une approche par classification de variables pour la typologie d’observations : le cas d’une enquête agriculture et environnement. Journal de la société française de statistique, Tome 154 (2013) no. 2, pp. 37-63. http://archive.numdam.org/item/JSFS_2013__154_2_37_0/
[1] Classification d’un ensemble de variables qualitatives, Revue de Statistique Appliquée, Volume 46 (1998) no. 4, pp. 5-26
[2] Simultaneous Clustering : A Survey, Pattern Recognition and Machine Intelligence, Springer Berlin / Heidelberg, 2011
[3] La prise en compte de l’environnement par les agriculteurs. Résultats d’enquête (2005) (Rapport d’étude)
[4] Classification de variables : le package ClustOfVar, 43es Journées de Statistique (SFdS) , Tunis, TUN (2011) http://cemadoc.irstea.fr/cemoa/PUB00032067
[5] ClustOfVar : An R Package for the Clustering of Variables, Journal of Statistical Software, Volume 50 (2012) no. 13, pp. 1-16
[6] Orthogonal rotation in PCAMIX, Advances in Data Analysis and Classification, Volume 6(2) (2012), pp. 131-146 | Zbl
[7] Classification de variables qualitatives : Une approche dynamique, 34e Journées de Statistique, Nantes, FRA (2001)
[8] Simultaneous multidimensional unfolding and cluster analysis : An investigation of strategic groups, Marketing Letters, Volume 2 (1991) no. 2, pp. 129-146
[9] Diametrical Clustering for Identifying Anticorrelated Gene Clusters, Bioinformatics, Volume 19 (2003) no. 13, pp. 1612-1619
[10] K-means clustering in a low-dimensional Euclidean Space, New Approaches in Classification and Data Analysis (Diday, E.; Lechevallier, Y.; Schader, M.; Bertrand, P.; Burtschy, B., eds.), Springer, 1994, pp. 212-219
[11] A latent class unfolding model for analyzing single stimulus preference ratings, Psychometrika, Volume 58 (1993), pp. 545-565 | Zbl
[12] Un modèle de mélange pour la classification croisée d’un tableau de données continues , CAP’09, 11e conférence sur l’apprentissage artificiel (2009)
[13] Classification, Chapman & Hall, 1999 | Zbl
[14] Information and classification, Information and Classification (Opitz, O.; Lausen, B.; Klar, R., eds.), Springer, 1993, pp. 162-173
[15] ‘Gene shaving’ as a method for identifying distinct sets of genes with similar expression patterns, Genome Biology, Volume 1(2) (2000), pp. 1-21
[16] Simple structure in component analysis techniques for mixtures of qualitative and quantitative variables, Psychometrika, Volume 56 (1991) no. 2, pp. 197-212 | Zbl
[17] Foundations of the likelihood linkage analysis classification method, Applied Stochastics Models and Data Analysis, Volume 7 (1990) no. 1, pp. 63-76 | Zbl
[18] Likelihood linkage analysis classification method : An example treated by hand, Biochimie, Volume 75 (1993) no. 5, pp. 379-397
[19] Clustering for Data Mining : A Data Recovery Approach, Computer Science & Data Analysis, Chapman and Hall/CRC, 2005 | Zbl
[20] Combined use of association rules mining and clustering methods to find relevant links between binary rare attributes in a large data set, Computational Statistics & Data Analysis, Volume 52 (2007), pp. 596-613 | Zbl
[21] Une nouvelle distance entre variables. Application en classification, Revue de Statistique Appliquée, Volume 46 (1998) no. 2, pp. 21-32
[22] Objective Criteria for the evaluation of Clustering Methods, Journal of the American Statistical Association, Volume 66 (1971), pp. 846-850
[23] Hierarchical clustering of variables : a comparison among strategies of analysis, Communications in Statistics - Simulation and Computation, Volume 28(4) (1999), pp. 977-999 | Zbl
[24] Factorial and reduced K-means reconsidered, Computational Statistics & Data Analysis, Volume 54 (2010) no. 7, pp. 1858-1871 | Zbl
[25] Factorial k-means analysis for two-way data, Computational Statistics & Data Analysis, Volume 37 (2001) no. 1, pp. 49-64 | DOI | Zbl
[26] Clustering of variables around latent components, Communications in statistics Simulation and Computation, Volume 32 (2003) no. 4, pp. 1131-1150 | Zbl
[27] Classification de variables autour de composantes latentes, Revue de Statistique Appliquée, Volume 54 (2006) no. 1, pp. 27-45
[28] Clustering and Disjoint Principal Component Analysis, Computational Statistics & Data Analysis, Volume 53 (2009) no. 8, pp. 3194-3208 | DOI | Zbl