万能近似定理

Template:基礎情報数学

万能近似定理（ばんのうきんじていり、英: Universal approximation theorem）とは、ニューラルネットワークが一定の条件のもとで連続関数を任意の精度で近似できることを示す。特に、1つの隠れ層を持つフィードフォワード型ニューラルネットワークが、適切な活性化関数を用いることで、コンパクト集合上の任意の連続関数を近似できることを示す定理として広く知られている^[1]。

コンパクト集合 $K\subset \mathbb {R} ^{n}$ 上の連続関数 $f:K\to \mathbb {R}$ と任意の $\varepsilon >0$ に対し、有限個の係数 $\alpha _{i}$ 、重みベクトル $w_{i}$ 、バイアス $b_{i}$ が存在して、

$\sup _{x\in K}\left|f(x)-\sum _{i=1}^{N}\alpha _{i}\,\sigma (w_{i}\cdot x+b_{i})\right|<\varepsilon$

が成立する。ここで $\sigma$ は活性化関数である。

条件

この定理が成立するためには、活性化関数 $\sigma$ が一定の条件を満たす必要がある。例えば、シグモイド型活性化関数や、非定数かつ有界な単調関数などが典型的な例として知られている^[2]。

解釈と限界

万能近似定理は、ニューラルネットワークが理論的に高い表現能力を持つことを示している。しかし、この定理は近似の存在を保証するものであり、必要なユニット数や学習アルゴリズムによる実現可能性については直接は述べていない。

歴史

1980年代後半には、ニューラルネットワークの関数近似能力に関する理論的研究が進展した。

船橋賢一は、Kolmogorov–Arnold–Sprecherの定理に基づき、シグモイド関数およびそれを一般化した活性化関数を用いる4層のフィードフォワード型ニューラルネットワーク ^[3]によって、多変数からなる連続写像を任意の精度で近似できることを示し、1988年にATRの技術報告として発表した ^[4]。この結果は多出力写像にも適用される。

その後、1989年には、隠れ層が1つの3層ネットワークでも、任意の連続写像を任意の精度で近似できることを示し、有限個のユニットによる具体的な構成に基づく近似可能性を与えた^[5]。

同年、Hornik、Stinchcombe、Whiteは、一定の条件を満たす活性化関数のもとで、1つの隠れ層を持つフィードフォワードネットワークが普遍近似能力を有することを示した^[2]。

また、Cybenkoは同年、シグモイド型活性化関数の場合について、積分表現に基づく別の証明を与えた^[1]。

これらの結果は、ニューラルネットワークの普遍近似能力を示すものであり、一般に「万能近似定理」と総称される。

万能近似定理

条件

解釈と限界

歴史

拡張

関連項目

脚注

Related Articles