偏りと分散

From Wikipedia, the free encyclopedia

偏りと分散バイアス-バリアンスのトレードオフ(かたよりとぶんさんのトレードオフ、: bias–variance tradeoff)とは、統計学機械学習において、パラメータの推定においてバイアス(偏り)を減らすと標本間のバリアンス(分散)が増え、同時にその逆も成立する、という予測モデルの特徴のことである。

バイアス-バリアンスのジレンマ(bias–variance dilemma)やバイアス-バリアンスの問題(bias–variance problem)とは、誤差の原因であるバイアスとバリアンスの両方を同時に減らそうとする際の対立の事であり、教師あり学習アルゴリズムが訓練データの内容を超えて汎化する際の課題となる。

バイアス(偏り
学習アルゴリズムにおいて、誤差のうち、モデルの仮定の誤りに由来する分。バイアスが大きすぎることは、入力と出力の関係を適切に捉えられていないことを意味し、過少適合している。
バリアンス(分散
誤差のうち、訓練データの揺らぎから生じる分。バリアンスが大きすぎることは、本来の出力ではなく、訓練データのランダムなノイズを学習していることを意味し、過剰適合している。

バイアス-バリアンス分解(bias–variance decomposition)とは、汎化誤差の期待値をバイアス+バリアンス+ノイズの3つの和に分解することである。

バイアス-バリアンスのトレードオフは、全ての教師あり学習で生じる。人間の学習において、人間がヒューリスティクスを使用することの有効性の説明にも使用されている[1]

統計学では通常 bias は偏り、variance は分散と翻訳するが、この文脈ではバイアスとバリアンスとカタカナで表記されることが多い。書籍『パターン認識と機械学習』の翻訳者はバイアス-バリアンスと訳し[2]、書籍『統計的学習の基礎』の翻訳者はバイアス-分散と訳した[3]

二乗誤差のバイアス-バリアンス分解

データとして入力 があり、出力は とする。真の関数 が存在し、 は平均0分散 のノイズである。

真の関数 を可能な限り近似した を推定したいとする。可能な限りの意味として、ここでは二乗誤差 を訓練データだけでなく、全てのデータにおいて最小化したいとする。ここで はノイズ を含んでいるので、原理上、完璧に推定することは不可能である。

訓練データから を推定する教師あり学習アルゴリズムは無数にあるが、どのアルゴリズムであっても、二乗誤差の期待値は以下のように分解できる。

導出

二乗誤差のバイアス-バリアンス分解は以下のように導出できる[4][5] および と簡略に表記する。分散の定義より、

これを式変形すると下記になる。

f は決定論的なので、

より

より

は独立なので、以下のように式変形できる。

手法

次元削減特徴選択はモデルを簡単にすることによりバリアンスを減らせる。訓練データを増やすこともバリアンスを減らせる。特徴量を追加することはバイアスを減らす傾向にあるが、バリアンスの追加が犠牲となる。

学習アルゴリズムはバイアスとバリアンスのバランスを調整するパラメータがあることが多い。以下はその例。

  • 線形モデルや一般化線形モデルでは、正則化により、バリアンスを減らしバイアスを増やせる[6]
  • ニューラルネットワークでは、隠れ層を大きくすることで、バリアンスを増やしバイアスを減らせる。一般化線形モデル同様、正則化も使える。[7]
  • k近傍法では、kを増やすことで、バリアンスを減らしバイアスを増やせる。
  • 決定木では、木の深さでバリアンスを調整できる。[8]:307

バイアス-バリアンスのトレードオフを解決する1つの方法は、混合モデルアンサンブル学習である[9][10]。例えば、ブースティングでは複数の弱学習器(バイアスが大きい)を組み合わせることでバイアスを下げることができ、バギングでは強学習器を組み合わせることでバリアンスを減らせる。

人間の学習への適用

参照

関連項目

Related Articles

Wikiwand AI