Étude statistique des données collectées par l'observatoire national des maladies du bois de la vigne
Journal de la société française de statistique, Tome 149 (2008) no. 4, p. 73-106
L'objectif de l'Observatoire National des Maladies du Bois de la Vigne est de dresser un état des lieux de la répartition, de la fréquence et de l'intensité de l'expression des symptômes foliaires des maladies du bois, pour répondre à la question de leur progression dans le vignoble français. En effet, suite à une interdiction de l'utilisation de l'arsénite de soude, les viticulteurs ne disposent plus d'aucune méthode de lutte chimique curative homologuée contre les maladies du bois de la vigne. Cet observatoire collecte, chaque année, depuis 2003, un ensemble de données cohérentes. Le jeu de données est complexe : il comporte des variables quantitatives et qualitatives qui évoluent au cours du temps. La problématique de l'étude est de dégager les grandes tendances en matière d'épidémiologie végétale afin de déterminer quelles sont les mesures prophylactiques à mettre en œuvre collectivement et à grande échelle. Le travail statistique s'est articulé en trois points. Nous avons mis en évidence des relations entre les différentes variables de l'étude, puis nous avons utilisé l'analyse des correspondances multiples, l'analyse en composantes principales et l'analyse factorielle de données mixtes. Puis, afin de préciser les relations décelées, notre choix s'est porté sur des modèles de régressions logistiques. Nous avons utilisé des techniques bootstrap pour construire des intervalles de confiance autour de leurs paramètres. Enfin, pour tenir compte du facteur temps, nous avons employé des méthodes d'analyse factorielle de tableaux multiples.
The Grapevine Wood Diseases National Observatory yields a cohesive, large and complex data set which may be dealt with using different approaches, as it is composed of time-varying quantitative and qualitative variables. The objective was to produce the largest possible amount of information from this data set, in order to highlight main trends. To this aim, we used both descriptive and inferential techniques. First, relationships between the different variables are identified using factorial methods, namely multiple correspondence analysis, principal component analysis and factor analysis of mixed data. Then, logistic regressions were used to specify the relationships we highlighted; confidence intervals for the parameters were constructed using bootstrap techniques. Lastly, we used factorial analysis of multi-tables in order to account for the successive three years of data.
Mots clés: analyse des correspondances multiples, analyse en composantes principales, analyse factorielle de données mixtes, régression logistique binaire, régression logistique ordinale, bootstrap, analyse factorielle de tableaux multiples
@article{JSFS_2008__149_4_73_0,
     author = {Bertrand, Fr\'ed\'eric and Maumy, Myriam and Fussler, Lionel and Kobes, Nathalie and Savary, Serge and Grosman, Jacques},
     title = {\'Etude statistique des donn\'ees collect\'ees par l'observatoire national des maladies du bois de la vigne},
     journal = {Journal de la soci\'et\'e fran\c caise de statistique},
     publisher = {Soci\'et\'e fran\c caise de statistique},
     volume = {149},
     number = {4},
     year = {2008},
     pages = {73-106},
     language = {fr},
     url = {http://www.numdam.org/item/JSFS_2008__149_4_73_0}
}
Bertrand, Frédéric; Maumy, Myriam; Fussler, Lionel; Kobes, Nathalie; Savary, Serge; Grosman, Jacques. Étude statistique des données collectées par l'observatoire national des maladies du bois de la vigne. Journal de la société française de statistique, Tome 149 (2008) no. 4, pp. 73-106. http://www.numdam.org/item/JSFS_2008__149_4_73_0/

[1] Bertrand F., Maumy M., Fussler L., Kobes N., Savary S. et Grosman J. (2008), Étude statistique des données collectées par l'Observatoire National des Maladies du Bois de la Vigne : Annexe de tables et graphiques, disponible en version électronique. http://www-irma.u-strasbg.fr/~fbertran/recherche/Annexe_MdBVigne.pdf.

[2] Canty A. (version originale pour S) et RIPLEY B. (adaptation en R) (2006), boot : Bootstrap R (S-Plus) Functions (Canty), R package version 1.2-27.

[3] Cazes P. (2004), Quelques méthodes d'analyse factorielle d'une série de tableaux de données. Revue MODULAD, 31, 1-31.

[4] Davison A.C. et Hinkley D.V. (1997), Bootstrap Methods and their Applications. Cambridge University Press. | MR 1478673 | Zbl 0886.62001

[5] Draper N.R. et Smith H. (1998), Applied regression analysis. 3e édition, J. Wiley, New York. | MR 1614335 | Zbl 0895.62073

[6] Dray S., Pettorelli N. et Chessel D. (2003), Multivariate Analysis of Incomplete Mapped Data, Transactions in GIS, 7, 411-422.

[7] Escofier B. (1979), Traitement simultané de variables quantitatives et qualitatives en analyse factorielle. Les cahiers de l'analyse des données, 4 (2), 132-146.

[8] Escofier B. et Pagès J. (1998), Analyses factorielles simples et multiples. 3e édition, Dunod, Paris.

[9] Fussler L. (2006), Analyse statistique de données de l'Observatoire National des Maladies du Bois, Université Louis Pasteur, Strasbourg, Mémoire de deuxième année de Master.

[10] Freeman G.H. et Halton J.H. (1951), Note on an exact treatment of contingency, goodness of fit and other problems of significance. Biometrika, 38, 141-149. | MR 42666 | Zbl 0044.14702

[11] Goodman L.A. et Kruskal W.H. (1954), Measures of Association for Cross Classifications. Journal of the American Statistical Association, 49, 732-764. | Zbl 0056.12801

[12] Hosmer D.W. (2000), Applied logistic regression. 2e édition, J. Wiley, New York. | Zbl 0967.62045

[13] Husson F., Lê S. et Mazet J. (2007), FactoMineR : Factor Analysis and Data Mining with R. http://factominer.free.fr, http://www.agrocampus-rennes.fr/math/.

[14] Kendall M.G. (1938), A new measure of rank correlation. Biometrika, 30, 81-93. | Zbl 0019.13001

[15] Lavit Ch., Escoufier Y., Sabatier R. et Traissac P. (1994), The ACT (STATIS Method). Computational Statistics and Data Analysis, 18, 97-119. | MR 1292337 | Zbl 0825.62009

[16] Pagès J. (2004), Analyse factorielle de données mixtes. Rev. Statistique Appliquée, LII (4), 93-111. | Numdam

[17] Savary S. et Madden L.V. (1995), Use of Categorical Information and Correspondence Analysis in Plant Disease Epidemiology, Advances in Botanical Research, 21, 213-240.

[18] Somers R.H. (1962), A new asymmetric measure of association for ordinal variables. American Sociological Review, 27, 799-811.

[19] R Development Core Team (2007), R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna. http://www.R-project.org.