特徴抽出

From Wikipedia, the free encyclopedia

特徴抽出(とくちょうちゅうしゅつ、Feature engineering)とは、教師あり学習統計モデルにおける前処理の一つで、元の学習データから有用な情報を抽出する次元削減の一種である。各入力は元の学習データよりコンパクトな特徴量で構成される。特徴抽出では関連性の高い情報に絞ったデータを入力することで学習モデルの予測精度と意思決定アルゴリズムの性能を大幅に向上し得る。[1][2][3]

特徴抽出は機械学習だけでなく物理学を含むさまざまな科学分野で応用されている。例えば、力学では流体力学におけるレイノルズ数アルキメデス数伝熱におけるヌセルト数などの無次元量がある。また、構造力学の構造解析でも用いられる。[4]

特徴抽出の応用としてデータセット内の特徴量やサンプル値のクラスタ解析がある。特に行列の分解に基づく特徴抽出は、特徴量の係数に非負制約を課したデータクラスタ解析に広く利用される。例えば、非負値行列因子分解(NMF)[5]、非負値行列三因子分解(NMTF)[6]、非負値テンソル因子分解(NTD)[7][8]などが該当する。上記のアルゴリズムによって抽出された特徴量ベクトルの係数に非負制約を課すことで、部分空間の表現が得られ、異なる因子行列が自然なクラスタ特性を表す。上記の特徴抽出法の拡張利用がいくつかの文献で報告されており、ハードクラスタ解析のための直交制約非負値行列因子分解や、先程挙げたアルゴリズムに内在する問題を克服するための多様体学習などがある。

他にも、複数の相互関連するデータセット間で隠れた共通構造を活用し、共通のクラスタ解析方式を得る特徴抽出アルゴリズムがある。例とえば、複数のデータセットに渡って共通のクラスタ解析を抽出するMCMD法[1]がある。MCMD法は、2種類のクラスラベル(スケール変動クラスタ解析とスケール不変クラスタ解析)を出力するものであり以下のような特徴がある。

  • 欠損情報に対して計算的に堅牢である。
  • 形状およびスケールに基づいた外れ値を取得可能である。
  • 高次元データを効果的に処理可能である。

行列およびテンソルの因子分解は、多視点特徴抽出で一般的に利用される。[9]

予測モデル構築

関連項目

脚注

Related Articles

Wikiwand AI