On peut retrouver les énoncés dans l'article de Bousquet ou le livre de Boucheron, Lugosi et Massart[2]. Soient
des variables aléatoires réelles i.i.d. indexés par
. On suppose que les variables sont centrées et majorées par 1, i.e.
et
pour tout
et
. On note
. Alors pour tout
,

où
pour
,
avec
. En optimisant la fonction
, on obtient en particulier