Sélection de modèle : de la théorie à la pratique
Journal de la société française de statistique, Volume 149 (2008) no. 4, p. 5-27

Since the seminal work of Akaike in the early seventies, optimizing some penalized empirical criterion such as the penalized log-likelihood has become a classical solution to the problem of choosing a proper statistical model from the data. For many model selection problems such as multiple change-point detection and variable selection for instance, it is desirable to let the dimension or the number of models of a given dimension grow with the sample size. A non asymptotic theory for model selection has therefore emerged during these last ten years in order to take this type of situations into account. The main issue both from a practical and a theoretical view point is to understand how to penalize an empirical criterion such as the log-likelihood in order to get some optimal selection procedure. Asymptotic theory provides some useful indications on the shape of the penalty but it often leaves to the user the choice of numerical constants. The optimal value for these constants is generally unknown. In some situations theory is indeed not sharp enough to lead to explicit values. In some other cases, the problem is more of a statistical nature since according to the theory, the optimal value should depend on the unknown distribution of the observations. Our purpose here is to promote some data-driven method to calibrate the penalty. This method is partly based on preliminary theoretical results that we shall recall and partly founded on some heuristics that we intend to explain.

Pour choisir un modèle statistique à partir des données, une méthode devenue classique depuis les travaux précurseurs d'Akaike dans les années 70 consiste à optimiser un critère empirique pénalisé, tel que la log-vraisemblance pénalisée. Dans bon nombre de problèmes de sélection de modèle tels que la sélection de variables ou la détection de ruptures multiples par exemple, il est souhaitable de laisser croitre la taille des modèles ou encore le nombre de modèles d'une dimension donnée avec le nombre d'observations. Une théorie non asymptotique de la sélection de modèles a donc émergé durant ces dix dernières années qui vise à prendre en compte ce type de situations. L'enjeu central aussi bien sur le plan théorique que pratique est de comprendre comment pénaliser un critère de type log-vraisemblance de façon à garantir une performance de sélection optimale. La théorie non asymptotique donne des indications sur la structure des pénalités qu'il convient d'utiliser mais n'est parfois pas suffisamment précise pour arbitrer la valeur de certaines constantes qui restent donc à calibrer au moment d'implémenter effectivement ce type de critères. Ces constantes peuvent être inconnues pour des raisons diverses. Il peut s'agir d'une faiblesse de la théorie qui garantit l'existence d'une constante absolue mais sans en donner la valeur numérique. Le problème peut être également de nature plus profondément statistique lorsque cette constante dépend objectivement de la loi inconnue des observations. Notre propos est ici de promouvoir une méthode de calibration de pénalité à partir des données. Cette méthode est en partie fondée sur des résultats théoriques établis et en partie sur une heuristique permettant de l'extrapoler à d'autres cadres que le cadre strict dans lequel la théorie permet de la valider.

Keywords: change point detection, concentration inequalities, empirical processes, model selection, penalization, variable selection
@article{JSFS_2008__149_4_5_0,
     author = {Massart, Pascal},
     title = {S\'election de mod\`ele : de la th\'eorie \`a la pratique},
     journal = {Journal de la soci\'et\'e fran\c caise de statistique},
     publisher = {Soci\'et\'e fran\c caise de statistique},
     volume = {149},
     number = {4},
     year = {2008},
     pages = {5-27},
     language = {fr},
     url = {http://www.numdam.org/item/JSFS_2008__149_4_5_0}
}
Massart, Pascal. Sélection de modèle : de la théorie à la pratique. Journal de la société française de statistique, Volume 149 (2008) no. 4, pp. 5-27. http://www.numdam.org/item/JSFS_2008__149_4_5_0/

[1] Akaike H. (1973). Information theory and an extension of the maximum likelihood principle. In P.N. Petrov and F. Csaki, editors, Proceedings 2nd International Symposium on Information Theory. pages 267-281. Akademia Kiado, Budapest. | MR 483125 | Zbl 0283.62006

[2] Arlot S. (2007). Model selection by resampling penalization. arXiv :math/0701542v2

[3] Arlot S. (2008). V-fold cross-validation improved : V-fold penalization. arXiv :0802.0566v2

[4] Arlot S. and Massart P. (2008). Data-driven calibration of penalties for least-squares regression. arXiv :0802.0837v2.

[5] Baraud Y. (2000). Model selection for regression on a fixed design. Probability Theory and Related Fields 117, no 4 467-493. | MR 1777129 | Zbl 0997.62027

[6] Bahadur R.R. (1958). Examples of inconsistency of maximum likelihood estimates. Sankhya Ser.A 20, 207-210. | MR 107331 | Zbl 0087.34202

[7] Baraud Y., Comte F. and Viennet G. (2001). Model selection for (auto-) regression with dependent data. ESAIM : Probability and Statistics 5, 33-49. http://www.emath.fr/ps/. | Numdam | MR 1845321 | Zbl 0990.62035

[8] Barron A.R., Birgé L., Massart P. (1999). Risk bounds for model selection via penalization. Probab. Th. Rel. Fields. 113, 301-415 . | MR 1679028 | Zbl 0946.62036

[9] Birgé L. and Massart P. (1993). Rates of convergence for minimum contrast estimators. Probab. Th. Relat. Fields 97, 113-150. | MR 1240719 | Zbl 0805.62037

[10] Birgé L. and Massart P. (1997). From model selection to adaptive estimation. In Festschrift for Lucien Lecam : Research Papers in Probability and Statistics (D. Pollard, E. Torgersen and G. Yang, eds.), 55-87, Springer-Verlag, New-York. | MR 1462939 | Zbl 0920.62042

[11] Birgé L. and Massart P. (2001). Gaussian model selection. Journal of the European Mathematical Society, no 3 , 203-268. | MR 1848946 | Zbl 1037.62001

[12] Birgé L., Massart P. (2007). Minimal penalties for Gaussian model selection. Probab. Th. Rel. Fields 138, no 1-2, 33-73. | MR 2288064 | Zbl 1112.62082

[13] Boucheron S., Bousquet O., Lugosi G., Massart P. (2005). Moment inequalities for functions of independent random variables. Ann. of Probability 33, no 2, 514-560. | MR 2123200 | Zbl 1074.60018

[14] Boucheron S. and Massart P. (en préparation). A poor man's Wilks phenomenon.

[15] Bousquet O. (2002). A Bennett concentration inequality and its application to suprema of empirical processes. C.R. Math. Acad. Sci. Paris 334, no 6, 495-500. | MR 1890640 | Zbl 1001.60021

[16] Castellan G. (2003). Density estimation via exponential model selection. IEEE Trans. Inform. Theory 49, no 8, 2052-2060. | MR 2004713

[17] Daniel C. and Wood F.S. (1971). Fitting Equations to Data. Wiley, New York. | Zbl 0264.65011

[18] Donoho D.L. and Johnstone I.M. (1994). Ideal spatial adaptation by wavelet shrinkage. Biometrika 81, 425-455. | MR 1311089 | Zbl 0815.62019

[19] Efron B., Hastie T., Johnstone I. and Tibshirani R. (2004). Least angle regression. Ann. Statist. 32 no 2, 407-499. | MR 2060166 | Zbl 1091.62054

[20] Lebarbier E. (2005). Detecting multiple change-points in the mean of Gaussian process by model selection. Signal Processing 85, no 4, 717-736. | Zbl 1148.94403

[21] Ledoux M. (1996). On Talagrand deviation inequalities for product measures. ESAIM : Probability and Statistics 1, 63-87. http ://www.emath.fr/ps/. | Numdam | MR 1399224 | Zbl 0869.60013

[22] Le Pennec E. and Mallat S. (2005). Sparse Geometric Image Representation with Bandelets. IEEE Trans. on Image Processing 14, no 4, 423-438. | MR 2128287

[23] Loubes J.M., Massart P. (2004). Discussion to Least Angle Regression. Ann. of Statistics 32, no 2, 476-482. | MR 2060166

[24] Mallat S. (1999 ). A Wavelet Tour of Signal Processing. Academic Press. | MR 1614527 | Zbl 0998.94510

[25] Mallows C.L. (1973). Some comments on C p . Technometrics 15, 661-675. | Zbl 0269.62061

[26] Massart P. (2000). About the constants in Talagrand's concentration inequalities for empirical processes. Ann. of Probability 28, no 2, 863-884. | MR 1782276 | Zbl 1140.60310

[27] Massart P. (2007). Concentration inequalities and model selection. In Lectures on Probability Theory and Statistics, École d'Été de Probabilités de St-Flour XXXIII-2003 (J. Picard, ed.). Lecture notes in Mathematics no 1896, Springer, Berlin. | MR 2319879 | Zbl pre05150953

[28] Reynaud-Bouret P. (2003). Adaptive estimation of the intensity of inhomogeneous Poisson processes via concentration inequalities. Probab. Theory Relat. Fields 126, no 1, 103-153. | MR 1981635 | Zbl 1019.62079

[29] Schwartz G. (1978). Estimating the dimension of a model. Ann. of Statistics 6, 461-464. | MR 468014 | Zbl 0379.62005

[30] Talagrand M. (1996). New concentration inequalities in product spaces. Invent. Math. 126, 505-563. | MR 1419006 | Zbl 0893.60001

[31] Vapnik V.N. (1982). Estimation of dependencies based on empirical data. Springer, New York. | MR 672244 | Zbl 0499.62005