次元削減

機械学習およびデータマイニング

問題分類クラスタリング回帰異常検知相関ルール（英語版）強化学習構造化予測（英語版）特徴量設計（英語版）表現学習（英語版）オンライン学習半教師あり学習教師なし学習ランキング学習（英語版）文法獲得（英語版）
教師あり学習（分類 • 回帰）決定木（英語版）アンサンブル（バギング、ブースティング、ランダムフォレスト） k-NN 線形回帰単純ベイズニューラルネットワークロジスティック回帰パーセプトロン関連ベクトルマシン (RVM)（英語版）サポートベクトルマシン (SVM)
クラスタリング BIRCH（英語版）階層的（英語版） k平均法期待値最大化法 (EM) DBSCAN OPTICS（英語版）平均値シフト（英語版）
次元削減因子分析 CCA ICA LDA（英語版） NMF PCA t-SNE
構造化予測（英語版）グラフィカルモデルベイジアンネットワーク CRF HMM
異常検知 k-NN 局所外れ値因子法
ニューラルネットワークオートエンコーダディープラーニング DeepDream 多層パーセプトロン RNN LSTM GRU 制約ボルツマンマシン（英語版） SOM CNN
強化学習 TD学習 Q学習 SARSA
理論偏りと分散のトレードオフ計算論的学習理論（英語版）経験損失最小化（英語版）オッカム学習（英語版） PAC学習統計的学習（英語版） VC理論（英語版）
学会・論文誌等 NIPS（英語版） ICML（英語版） ML（英語版） JMLR（英語版） ArXiv:cs.LG
応用学習物理学
全般統計学および機械学習の評価指標
Category:機械学習 Category:データマイニング
表話編歴

次元削減（じげんさくげん、英: Dimensionality reduction、dimension reduction）とは、高次元空間から低次元空間へデータを変換しながら、低次元表現が元データの何らかの意味ある特性を保持することである。

高次元空間でデータを扱うことは、多くの理由から望ましくない。生のデータは次元の呪いの結果、疎になることが多く、データの解析は通常、計算不可能である。

次元削減は、信号処理、音声認識、ニューロインフォマティクス、バイオインフォマティクスなど、大量の観測値や大量の変数を扱う分野で一般的である^[1]。

次元削減の方法は一般的に線形アプローチと非線形アプローチに分けられる。また、アプローチは特徴選択と特徴抽出に分けられる^[2] 。次元削減は、ノイズ除去、データの可視化、クラスター分析、あるいは他の分析を容易にするための中間段階として利用されることがある。

→詳細は「特徴選択」を参照

特徴選択とは、入力変数（特徴量、属性と呼ばれることもある）から有用な部分集合を見つけようとする手法のことである。フィルタ（英: filter strategy、例としては決定木の情報利得（英語版）等。）法、ラッパー法（英: wrapper strategy、例としては精度を最大化するような探索等。)、埋め込み法(英: embedded strategy、モデル学習の過程で予測に対する誤差を基に特徴を追加、あるいは除去するような方法）等、大きく3つの戦略に分けられる。

回帰や分類といったデータ解析においては、元の空間よりも次元を削減した空間で行う方がより精度が高まるとされている^[3]。

特徴抽出

→詳細は「特徴抽出」を参照

特徴抽出とは、データを高次元の空間からより低次元の空間に変換することである。変換方法は主成分分析のように線形であるものもあるが、多くは非線形のアプローチである^[4]^[5]。多次元のデータに対しては、多重線形部分空間法（英語版）によって次元削減を行うことにより、テンソル表現（英語版）を利用できる^[6]。

主成分分析

→詳細は「主成分分析」を参照

次元削減の線形なアプローチの中で主要なものである主成分分析は、データを低次元空間に対して線形にマッピングする。マッピングの方法としては、低次元表現におけるデータの分散を最大化するようにするものがある。実際には、データの共分散（あるいは相関係数）の行列を作り、その固有ベクトルを計算する。最大の固有値に対応する固有ベクトル（主成分）は、元データの分散が最大になる方向を示している。さらに、固有値の大きい順に並べたときの最初の数個の固有ベクトルは、特に低次元の系では系のエネルギーの大部分を占めているため、系の物理的なふるまいを解析するのに役立つ。勿論、全ての系がこのようなふるまいを示すわけではなく、ケースバイケースである。主成分分析により、少数の固有ベクトルで張られる空間に次元を削減^{[注釈 1]}できる^[要出典]。

非負値行列因子分解（NMF）

→詳細は「非負値行列因子分解」を参照

非負値行列因子分解（英: Non-negative matrix factorization、NMFとも）は非負の行列を2つの非負の行列の積に分解する方法で、天文学など^[7]^[8]非負値しか取り扱わない分野で有力な方法とされている^[9]^[10]。 NMFはLeeとセバスチャン・スン（英語版）によって効率的な乗法アルゴリズムが提案され^[11]^[9]て以来よく知られており、継続的に拡張・応用がなされている^[11]。例としては、不確さを含めた取り扱い^[7]、欠損データを考慮した並列計算^[12]、NMFの安定性と線形性へと繋がる逐次的な構成^[8]^[12]、画像処理における欠損データを取り扱う更新則^[13]等。

オートエンコーダ

→詳細は「オートエンコーダ」を参照

オートエンコーダは、非線形の次元削減関数の学習と、その逆関数である次元削減された表現から元の表現へ変換する関数の両方を学習するために利用される^[14]。

t-SNE

→詳細は「t分布型確率的近傍埋め込み法」を参照

t分布型確率的近傍埋め込み法（英: t-SNE）は、高次元データセットの可視化に有用な非線形の次元削減手法である。必ずしも密度や距離が保存されるわけではないため、クラスタリングや外れ値の検出といった用途には推奨されない^[15]。

特徴抽出

主成分分析

非負値行列因子分解（NMF）

オートエンコーダ

t-SNE

脚注

注釈

出典

関連項目

Related Articles