次元削減

From Wikipedia, the free encyclopedia

MNISTと呼ばれる09の数字の画像を含むデータセットに、主成分分析(PCA、左図)と線形オートエンコーダlinear autoencoder、右図)を用いて次元削減した結果を図示したもの。

次元削減(じげんさくげん、: Dimensionality reductiondimension reduction)とは、高次元空間から低次元空間へデータを変換しながら、低次元表現が元データの何らかの意味ある特性を保持することである。

高次元空間でデータを扱うことは、多くの理由から望ましくない。生のデータは次元の呪いの結果、疎になることが多く、データの解析は通常、計算不可能である。

次元削減は、信号処理音声認識ニューロインフォマティクスバイオインフォマティクスなど、大量の観測値や大量の変数を扱う分野で一般的である[1]

次元削減の方法は一般的に線形アプローチと非線形アプローチに分けられる。また、アプローチは特徴選択特徴抽出に分けられる[2] 。次元削減は、ノイズ除去データの可視化クラスター分析、あるいは他の分析を容易にするための中間段階として利用されることがある。

特徴選択とは、入力変数(特徴量、属性と呼ばれることもある)から有用な部分集合を見つけようとする手法のことである。フィルタ(: filter strategy、例としては決定木の情報利得英語版等。)法、ラッパー法(: wrapper strategy、例としては精度を最大化するような探索等。)、埋め込み法(: embedded strategy、モデル学習の過程で予測に対する誤差を基に特徴を追加、あるいは除去するような方法)等、大きく3つの戦略に分けられる。

回帰分類といったデータ解析においては、元の空間よりも次元を削減した空間で行う方がより精度が高まるとされている[3]

特徴抽出

脚注

関連項目

Related Articles

Wikiwand AI