Sparsity in penalized empirical risk minimization
Annales de l'I.H.P. Probabilités et statistiques, Volume 45 (2009) no. 1, p. 7-57

Let $\left(X,Y\right)$ be a random couple in $S×T$ with unknown distribution $P$. Let $\left({X}_{1},{Y}_{1}\right),...,\left({X}_{n},{Y}_{n}\right)$ be i.i.d. copies of $\left(X,Y\right)$, ${P}_{n}$ being their empirical distribution. Let ${h}_{1},...,{h}_{N}:S↦\left[-1,1\right]$ be a dictionary consisting of $N$ functions. For $\lambda \in {ℝ}^{N}$, denote ${f}_{\lambda }:={\sum }_{j=1}^{N}{\lambda }_{j}{h}_{j}$. Let $\ell :T×ℝ↦ℝ$ be a given loss function, which is convex with respect to the second variable. Denote $\left(\ell •f\right)\left(x,y\right):=\ell \left(y;f\left(x\right)\right)$. We study the following penalized empirical risk minimization problem ${\stackrel{^}{\lambda }}^{\epsilon }:=\underset{\lambda \in {ℝ}^{N}}{argmin}\left[{P}_{n}\left(\ell •{f}_{\lambda }\right)+\epsilon {\parallel \lambda \parallel }_{{\ell }_{p}}^{p}\right],$ which is an empirical version of the problem ${\lambda }^{\epsilon }:=\underset{\lambda \in {ℝ}^{N}}{argmin}\left[P\left(\ell •{f}_{\lambda }\right)+\epsilon {\parallel \lambda \parallel }_{{\ell }_{p}}^{p}\right]$ (here $\epsilon \ge 0$ is a regularization parameter; ${\lambda }^{0}$ corresponds to $\epsilon =0$). A number of regression and classification problems fit this general framework. We are interested in the case when $p\ge 1$, but it is close enough to 1 (so that $p-1$ is of the order $\frac{1}{logN}$, or smaller). We show that the “sparsity” of ${\lambda }^{\epsilon }$ implies the “sparsity” of ${\stackrel{^}{\lambda }}^{\epsilon }$ and study the impact of “sparsity” on bounding the excess risk $P\left(\ell •{f}_{{\stackrel{^}{\lambda }}^{\epsilon }}\right)-P\left(\ell •{f}_{{\lambda }^{0}}\right)$ of solutions of empirical risk minimization problems.

Soit $\left(X,Y\right)$ un couple aléatoire à valeurs dans $S×T$ et de loi $P$ inconnue. Soient $\left({X}_{1},{Y}_{1}\right),...,\left({X}_{n},{Y}_{n}\right)$ des répliques i.i.d. de $\left(X,Y\right)$, de loi empirique associée ${P}_{n}$. Soit ${h}_{1},...,{h}_{N}:S↦\left[-1,1\right]$ un dictionnaire composé de $N$ fonctions. Pour tout $\lambda \in {ℝ}^{N}$, on note ${f}_{\lambda }:={\sum }_{j=1}^{N}{\lambda }_{j}{h}_{j}$. Soit $\ell :T×ℝ↦ℝ$ fonction de perte donnée que l’on suppose convexe en la seconde variable. On note $\left(\ell •f\right)\left(x,y\right):=\ell \left(y;f\left(x\right)\right)$. On étudie le problème de minimisation du risque empirique pénalisé suivant ${\stackrel{^}{\lambda }}^{\epsilon }:=\underset{\lambda \in {ℝ}^{N}}{argmin}\left[{P}_{n}\left(\ell •{f}_{\lambda }\right)+\epsilon {\parallel \lambda \parallel }_{{\ell }_{p}}^{p}\right],$ qui correspond à la version empirique du problème ${\lambda }^{\epsilon }:=\underset{\lambda \in {ℝ}^{N}}{argmin}\left[P\left(\ell •{f}_{\lambda }\right)+\epsilon {\parallel \lambda \parallel }_{{\ell }_{p}}^{p}\right]$ (ici $\epsilon \ge 0$ est un paramètre de régularisation; ${\lambda }^{0}$ correspond au cas $\epsilon =0$). Ce cadre général englobe un certain nombre de problèmes de régression et de classification. On s’intéresse au cas où $p\ge 1$, mais reste proche de 1 (de sorte que $p-1$ soit de l’ordre $\frac{1}{logN}$, ou inférieur). On montre que la «sparsité» de ${\lambda }^{\epsilon }$ implique la «sparsité» de ${\stackrel{^}{\lambda }}^{\epsilon }$. En outre, on étudie les conséquences de la «sparsité» en termes de bornes supérieures sur l’excès de risque $P\left(\ell •{f}_{{\stackrel{^}{\lambda }}^{\epsilon }}\right)-P\left(\ell •{f}_{{\lambda }^{0}}\right)$ des solutions obtenues pour les différents problèmes de minimisation du risque empirique.

DOI : https://doi.org/10.1214/07-AIHP146
Classification:  62G99,  62J99,  62H30
Keywords: empirical risk, penalized empirical risk, ℓ_p-penalty, sparsity, oracle inequalities
