U-statistique

Les U-statistiques, ou U-estimateurs, forment une classe de statistiques introduite par le statisticien finlandais Wassily Hoeffding en 1948, jouant un rôle important en théorie de l'estimation. La lettre U est l'initiale de unbiased en anglais, qui signifie « non biaisé ». Les U-statistiques sont les statistiques qui peuvent s'écrire comme la moyenne empirique d'une fonction symétrique à $m$ variables prise sur toutes les sous-parties de taille $m$ d'un échantillon. Ces statistiques partagent des propriétés intéressantes et permettent entre autres de construire des estimateurs non biaisés. Les U-statistiques comprennent de nombreux estimateurs classiques tels que la moyenne empirique ou la variance empirique non biaisée ${\widetilde {S}}^{2}$ .

Définition comme statistique

Soit $m\in \mathbb {N} ^{*}$ et ${\displaystyle \Phi$ une fonction symétrique.

Alors l'application qui à un échantillon $X=(x_{1},\dots ,x_{n})$ de taille $n\geq m$ associe :

U(X)={\binom {n}{m}}^{-1}\sum _{i_{1}<\dots <i_{m}}\Phi (x_{i_{1}},\dots ,x_{i_{m}})

est appelée une U-statistique d'ordre $m$ et de kernel $\Phi$ ^[1].

Cette statistique est la moyenne de $\Phi (x_{i_{1}},\dots ,x_{i_{m}})$ prise sur toutes les parties $\{x_{i_{1}},\dots ,x_{i_{m}}\}$ de $\{x_{1},\dots ,x_{n}\}$ .

Définition en tant que fonctionnelle

On peut aussi définir une U-statistique en tant que fonctionnelle, c'est-à-dire une application partant d'un espace de distributions de probabilité, et à valeurs dans $\mathbb {R}$ .

Soit ${\mathcal {D}}$ l'ensemble des distributions de probabilité sur un ensemble mesurable $E$ , une U-statistique est une fonctionnelle de la forme :

U:{\begin{array}{ccl}{\mathcal {D}}&\to &\mathbb {R} \\F&\mapsto &U(F)=\mathbb {E} _{X_{1},\dots ,X_{m}{\overset {\text{iid}}{\sim }}F}[\Phi (X_{1},\dots ,X_{m})]=\int _{E}\dots \int _{E}\Phi (x_{1},\dots ,x_{m})\mathrm {d} F(x_{1})\dots \mathrm {d} F(x_{m})\end{array}}.

Cette définition en tant que fonctionnelle est une généralisation de la première. En effet on remarque que si ${\hat {F}}_{n}$ est la distribution empirique d'un échantillon $(x_{1},\dots ,x_{n})$ , alors

U({\hat {F}}_{n})={\binom {n}{m}}^{-1}\sum _{i_{1}<\dots <i_{m}}\Phi (x_{i_{1}},\dots ,x_{i_{m}})

C'est-à-dire que la fonctionnelle $U$ évaluée en ${\hat {F}}_{n}$ est égale à la statistique $U$ appliquée à l'échantillon $(x_{1},\dots ,x_{n})$ . La définition par une fonctionnelle permet de parler d'une U-statistique évaluée en une distribution qui ne serait pas une distribution empirique, ce que ne permet pas la première définition.

Si $X_{1},..,X_{r}$ sont des variables aléatoires identiquement distribuées, si $\Phi$ est mesurable, par linéarité de l'espérance, $U(X)$ est un estimateur non biaisé de $\mathbb {E} [\Phi (X_{1},\dots ,X_{r})]$ . Ce qui explique le nom U-statistique venant de Unbiased.

Exemples

De nombreux estimateurs classiques peuvent s'écrire comme des U-estimateurs:

L'estimateur classique la moyenne empirique ${\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ est un U-estimateur d'ordre 1, et de kernel $\Phi :x\mapsto x$ .

L'estimateur non biaisé de la variance ${\widetilde {S}}^{2}(X)={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {X}})^{2}$ peut se réécrire $S(X)={\frac {2}{n(n-1)}}\sum _{i<j}{\frac {(x_{i}-x_{j})^{2}}{2}}$ . Il s'agit donc d'un U-estimateur d'ordre 2 et de kernel ${\displaystyle \Phi$ .

L'estimateur du tau de Kendall peut s'écrire $\tau (X)={\frac {2}{n(n-1)}}\sum _{i<j}\Phi (x_{i},x_{j})$ où $\Phi (x_{i},x_{j})={\begin{cases}1&{\text{ si la paire }}(x_{i},x_{j}){\text{ est concordante}}\\-1&{\text{ sinon}}\end{cases}}$ . Il s'agit donc d'un U-estimateur d'ordre 2.

L'estimateur de l'écart absolu moyen ${\frac {1}{n(n-1)}}\sum _{i<j}|x_{i}-x_{j}|$ est une U-statistique d'ordre 2 et de kernel $|x-y|$ .

La statistique d'un test de Wilcoxon sur ${\mathcal {H}}_{0}$ : « Mediane $(X)=0$ » peut s'écrire $\sum _{i=1}^{n}\mathbf {1} _{\mathbf {R} +}(x_{i})+\sum _{i=1}^{n}\mathbf {1} _{\mathbf {R} +}(x_{i}+x_{j})$ , soit $nU_{1}+{\frac {n(n-1)}{2}}U_{2}$ où $U_{1}$ et $U_{2}$ sont deux U-statistiques: $U_{1}$ d'ordre 1 et de kernel $\Phi (x)=\mathbf {1} _{R^{+}}(x)$ et $U_{2}$ d'ordre 2 et de kernel $\Phi (x,y)=1_{R+}(x-y)$ ^[2]

Propriétés

Dans ce qui suit, les échantillons $X_{1},\dots ,X_{n}$ sont tous supposés indépendant et identiquement distribués par défaut.

Normalité asymptotique

Les U-statistiques sont asymptotiquement normales, l'analogue du théorème central limite pour les U-statistiques a été établi par Hoeffding en 1948 :

Normalité asymptotique des U-statistiques (Hoeffding, 1948) — Soit $F$ une loi de probabilité, $X_{1},X_{2},\dots$ une suite de variables aléatoires indépendantes et identiquement distribuées de loi $F$ et une U-statistique $U$ d'ordre $m$ et kernel $\Phi$ .

Alors, si $\mathbb {E} (\Phi (X_{1},..,X_{m})^{2})$ existe,

{\sqrt {n}}(U(X_{1},..,X_{n})-\theta ){\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,V)

où $\theta =\mathbb {E} [\Phi (X_{1},..,X_{m})]$ et $V=\mathbb {E} [\Phi (X_{1},..,X_{m})^{2}]$

Variance d'une U-statistique

La variance d'une U-statistique d'ordre $m$ et de kernel $\Phi$ est donnée par^[3] :

Var[U(X_{1},\dots ,X_{n})]={\binom {n}{m}}^{-1}\sum _{k=1}^{m}{\binom {m}{k}}{\binom {n-m}{m-k}}\sigma _{k}^{2}

où pour $k\leq m$ , $\sigma _{k}=Var\left[\mathbb {E} \left[\Phi (X_{1},\dots ,X_{m})|X_{1},\dots ,X_{k}\right]\right]$

Estimateurs non biaisé

Paul Halmos a démontré en 1946 que les seules fonctionnelles admettant un estimateur non biaisé quelle que soit la distribution des données sont les U-statistiques (en tant que fonctionnelles). Alors, l'estimateur non biaisé de variance minimum est la U-statistique correspondante. Plus formellement^[4],

Absence de biais des U-statistiques — (Halmos, 1946)

Soit $U$ une fonctionnelle. S'il existe un estimateur $T(X)$ de $U$ non biaisé indépendamment de la distribution de $X$ , c'est-à-dire telle que pour toute distribution de probabilité $F$ ,

\mathbb {E} _{X_{1},\dots ,X_{n}{\overset {\text{iid}}{\sim }}F}[T(X_{1},\dots ,X_{n})]=U(F),

alors il existe un entier

m

et une fonction symétrique

\Phi

à

m

variables tels que

U(F)=\mathbb {E} _{X_{1},\dots ,X_{m}{\overset {\text{iid}}{\sim }}F}[\Phi (X_{1},\dots ,X_{m})]

,

et le U-estimateur ${\binom {n}{m}}^{-1}\sum _{i_{1}<\dots <i_{m}}\Phi (X_{1},\dots ,X_{m})$ a la plus petite variance parmi les estimateurs $T$ vérifiant $\mathbb {E} _{X_{1},\dots ,X_{m}{\overset {\text{iid}}{\sim }}F}[T(X_{1},\dots ,X_{n})]=U(F)$ pour toute distribution $F$ .

En particulier, Tout U-estimateur de kernel $\Phi$ et d'ordre $m$ est un estimateur non biaisé de $\mathbb {E} _{X_{1},\dots ,X_{m}{\overset {\text{iid}}{\sim }}F}[\Phi (X_{1},\dots ,X_{m})]$ .

Ce résultat ne signifie pas que les seuls estimateurs non biaisés sont des U-estimateurs, mais que les seules quantités estimables de manière non biaisée, indépendamment de la distribution des données, sont des fonctionnelles associées à des U-statistiques. Par exemple, il n'existe pas d'estimateur non biaisé de la médiane pour toute distribution, car la médiane d'une distribution ne peut pas être écrite comme une U-fonctionnelle. Il est certes possible de trouver des estimateurs de la médiane qui soient sans biais pour certaines distributions (la moyenne empirique est un estimateur sans biais de la médiane de toute distribution symétrique admettant une espérance), mais il existe nécessairement des distributions pour lesquelles ces estimateurs seront biaisés.

De même, les U-estimateurs associés à une U-fonctionnelle ne sont pas nécessairement les estimateurs les plus efficaces. Ce sont simplement les estimateurs efficaces parmi les estimateurs non biaisés indépendamment de la distribution des données. Par exemple, sur des données issues d'une loi de Laplace, la médiane empirique est plus efficace que la moyenne empirique pour estimer l'espérance. Mais cela ne contredit pas le résultat précédent, puisque la médiane empirique n'est pas un estimateur non biaisé indépendamment de la distribution des données.