Comparaison de variantes de régressions logistiques PLS et de régression PLS sur variables qualitatives : application aux données d’allélotypage
Journal de la société française de statistique, Tome 151 (2010) no. 2, pp. 1-18.

Un microsatellite est une séquence non-codante de l’ADN. L’allélotypage consiste à rechercher le statut normal ou altéré d’un ensemble prédéfini de microsatellites, en général dans une cellule cancéreuse. Les données d’allélotypage rassemblent donc une série de variables binaires décrivant l’état global des chromosomes de la cellule. Ces données sont généralement utilisées pour expliquer une caractéristique, elle aussi qualitative binaire, du sujet ou de la tumeur. Les données d’allélotypage sont caractérisées par un nombre de variables (microsatellites) pouvant dépasser le nombre de sujets et par la présence éventuelle de colinéarité entre les microsatellites. La compréhension des mécanismes de cancérogenèse implique également une description multivariée des données. Le traitement statistique de ces données suggère donc l’utilisation de la régression PLS. Les variantes PLS des régressions linéaire et logistique ne font pas d’hypothèses sur le type de données pouvant être analysées. Nous trouvons dans la littérature l’utilisation sur des variables toutes qualitatives de modèles prévus a priori pour des données quantitatives. L’absence d’hypothèse sur les données impliquent par ailleurs une validation des modèles par des méthodes de type validation-croisée ou bootstrap. Nous comparons ici les performances des variantes PLS des régressions linéaire et logistique sur des données toutes qualitatives.

A microsatellite is a non-coding DNA sequence. Allelotyping consists in establishing the normal or altered status of a set of predefined microsatellites, generaly in a tumor cell. Allelotyping data thus gather a series of binary variables that describes the global state of the cell chromosomes. These binary data are generaly used to explain a characteristic, binary also, of the subject or of the tumor. Allelotyping data are characterised by their number of variables (microsatellites) being sometimes larger than the number of subjects and by the possible collinearity of two microsatellites. The understanding of cancerogenesis mechanisms implies also a multivariate description of the data. The statistical processing of these data thus suggest using PLS regression. PLS variants of linear and logistic regression make no assumptions on the type of data on which the model can be run. In the literature, models theoretically devised for continuous data are sometimes used on binary data. The absence of assumption on data implies that the models be validated using either a bootstrap or a cross-validation method. We compare here the performances of linear and logistic regression on qualitative data.

Mot clés : PLS, PLS-GLM, allélotypage
Keywords: PLS, PLS-GLM, allélotyping
@article{JSFS_2010__151_2_1_0,
     author = {Meyer, Nicolas and Maumy-Bertrand, Myriam and Bertrand, Fr\'ed\'eric},
     title = {Comparaison de variantes de r\'egressions logistiques {PLS} et de r\'egression {PLS} sur variables qualitatives~: application aux donn\'ees d{\textquoteright}all\'elotypage},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {1--18},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {151},
     number = {2},
     year = {2010},
     mrnumber = {2652789},
     zbl = {1316.62159},
     language = {fr},
     url = {http://archive.numdam.org/item/JSFS_2010__151_2_1_0/}
}
TY  - JOUR
AU  - Meyer, Nicolas
AU  - Maumy-Bertrand, Myriam
AU  - Bertrand, Frédéric
TI  - Comparaison de variantes de régressions logistiques PLS et de régression PLS sur variables qualitatives : application aux données d’allélotypage
JO  - Journal de la société française de statistique
PY  - 2010
SP  - 1
EP  - 18
VL  - 151
IS  - 2
PB  - Société française de statistique
UR  - http://archive.numdam.org/item/JSFS_2010__151_2_1_0/
LA  - fr
ID  - JSFS_2010__151_2_1_0
ER  - 
%0 Journal Article
%A Meyer, Nicolas
%A Maumy-Bertrand, Myriam
%A Bertrand, Frédéric
%T Comparaison de variantes de régressions logistiques PLS et de régression PLS sur variables qualitatives : application aux données d’allélotypage
%J Journal de la société française de statistique
%D 2010
%P 1-18
%V 151
%N 2
%I Société française de statistique
%U http://archive.numdam.org/item/JSFS_2010__151_2_1_0/
%G fr
%F JSFS_2010__151_2_1_0
Meyer, Nicolas; Maumy-Bertrand, Myriam; Bertrand, Frédéric. Comparaison de variantes de régressions logistiques PLS et de régression PLS sur variables qualitatives : application aux données d’allélotypage. Journal de la société française de statistique, Tome 151 (2010) no. 2, pp. 1-18. http://archive.numdam.org/item/JSFS_2010__151_2_1_0/

[1] Astler, VB; Coller, FA The Prognostic Significance of Direct Extension of Carcinoma of the Colon and Rectum., Ann Surg., Volume 1954 (1954) no. 6, pp. 846-851 | DOI

[2] Akaike, H. A new look at the statistical model identification., IEEE Transactions on Automatic Control, Volume 19 (1974) no. 6, pp. 716-723 | DOI | MR | Zbl

[3] Boulesteix, AL; Strimmer, K Partial least squares : a versatil tool for the analysis of high-dimensional genomic data., Briefings in Bioinformatics, Volume 8 (2007) no. 1, pp. 32-44 | DOI

[4] Bastien, P; Vinzi, VE; Tenenhaus, M PLS generalised linear regression., Computational Statistics & Data Analysis, Volume 48 (2005), pp. 17-46 | DOI | MR | Zbl

[5] Cazes, P Adaptation de la régression PLS au cas de la régression après analyse des correspondances multiples., Revue de Statistique Appliquée, Volume 45 (1997) no. 2, pp. 89-99

[6] Chambers, GK; Macavoy, ES Microsatellites : consensus and controversy., Comparative Biochemistry and Physiology Part B, Volume 126 (2000), pp. 455-476 | DOI

[7] Ding, B; Gentleman, R Classification using generalized partial least squares., Journal of Computational & Graphical Statistics, Volume 14 (2005) no. 2, pp. 280-298 | DOI | MR

[8] Efron, B Bootstrap methods : another look at the jack-knife., The Annals of Statistics, Volume 7 (1979) no. 1, pp. 1-26 | DOI | MR | Zbl

[9] Eriksson, L; Johansson, E; Kettaneh-Wold, N; Trygg, J; Wikström, C; Wold, S Multi- and Megavariate Data Analysis, Principles and Applications, Umetrics Academy Umeå, 2001

[10] Fort, G; Lambert-Lacroix, S Classification using Partial Least Squares with Penalized Logistic Regression., Bioinformatics, Volume 21 (2005) no. 8, pp. 1104-1111 | DOI

[11] Gauchi, JP; Chagnon, P Comparison of selection methods of explanatory variables in PLS regression with application to manufacturing process data., Chemometrics and Intelligent Laboratory Systems, Volume 58 (2001), pp. 171-193 | DOI

[12] Good, P Permutation Tests : A Practical Guide to Resampling Methods for Testing Hypotheses, Series in Statistics, Springer, 2000 | DOI | Zbl

[13] Gower, JC Some distance properties of latent root and vector methods used in multivariate analysis., Biometrika, Volume 53 (1966), pp. 325-338 | DOI | MR | Zbl

[14] Helland, IS Some theoretical aspects of partial least squares regression., Chemometrics and Intelligent Laboratory Systems, Volume 58 (2001), pp. 97-107 | DOI

[15] Höskuldsson, A PLS regression methods., Journal of Chemometrics, Volume 2 (1988), pp. 211-228 | DOI

[16] Jolliffe, IT Principal component analysis, Springer, 2002 | MR | Zbl

[17] Li, B; Morris, J; Martin, EB Model selection for partial least squares regression., Chemometrics and Intelligent Laboratory Systems, Volume 64 (2002), pp. 79-89 | DOI

[18] Little, RJA; Rubin, DB Statistical Analysis with Missing Data, John Wiley & Sons, 1987 | MR | Zbl

[19] Marx, BD Iteratively Reweighted Partial least Squares Estimation for generalized Linear Regression., Technometrics, Volume 38 (1996), pp. 374-381 | DOI | Zbl

[20] Næs, T; Martens, H Comparison of prediction methods for collinear data., Commun. Stat., Simul., Volume 14 (1985), pp. 545-576 | DOI | Zbl

[21] Nguyen, DV; Rocke, DM Tumor classification by partial least squares using microarray gene expression data., Bioinformatics, Volume 18 (2008) no. 1, pp. 39-50 | DOI

[22] Page, GP; Zakharkin, SO; Kim, K; Mehta, T; Chen, L; Zhang, K Microarray analysis., Methods Mol Biol, Volume 404 (2007), p. 409-30 | DOI

[23] Shao, J Linear model selection by cross-validation., J. Am. Stat. Assoc, Volume 88 (1993), pp. 486-494 | DOI | MR | Zbl

[24] Stone, M Cross-validatory choice and assessment of statistical predictions., Journal of the Royal Statistical Society, Series B., Volume 36 (1974), pp. 111-133 | MR | Zbl

[25] Tenenhaus, M La régression logistique PLS, Modèles statistiques pour données qualitatives, Technip, Paris (2005), pp. 263-275 | MR

[26] Tenenhaus, M La régression PLS. Théorie et Pratique, Technip, Paris, 1998 | MR | Zbl

[27] Tenenhaus, M; Gauchi, JP; Ménardo, C Régression PLS et applications., Revue de Statistique Appliquée, Volume 43 (1995) no. 1, pp. 7-63

[28] Weber, JC; Meyer, N; Pencreach, E; Schneider, A; Guérin, E; Neuville, A; Stemmer, C; Brigand, C; Bachellier, P; Rohr, S; Kedinger, M; Meyer, C; Guenot, D; Oudet, P; Jaeck, D; Gaub, MP Allelotyping analyses of synchronous primary and metastasis CIN colon cancers identified different subtypes., Int J Cancer, Volume 120 (2007) no. 3, p. 524-32 | DOI

[29] Wold, H Estimation of principal component and related models by iterative least squares, Multivariate Analysis, Academic Press, New York (1966), pp. 391-420 | MR | Zbl

[30] Wold, S; Sjöström, M; Eriksson, L PLS-regression : a basic tool of chemometrics., Chemometrics and Intelligent Laboratory Systems, Volume 58 (2001), pp. 109-130 | DOI

[31] Xiong, P; Meullenet, JF A PLS dummy variable apporach to assess the impact of JAR attributes on liking., Food Quality and Preference, Volume 17 (2006), pp. 188-198 | DOI

[32] Zhu, JJ; Santarius, T; Wu, X; Tsong, J; Guha, A; Wu, JK; Hudson, TJ; Mclblack, P Screening for loss of heterozygosity and microsatellite instability in oligodendrogliomas., Genes, Chromosomes & Cancer, Volume 21 (1998), pp. 207-216 | DOI