多変量解析
From Wikipedia, the free encyclopedia
多変量解析(たへんりょうかいせき、英語: multivariate analysis、略:MVA)は、多変量統計の原則に基づき、一つの対象に対して行われた「複数の測定値」を同時に扱う統計手法である。単一のデータを見るのではなく、それら複数の測定値の間にどのような関係性や構造があるのかを明らかにすることを主目的とする。
当初は統計学の理論として生まれたが、コンピュータの発展とともに他の分野でも応用されるようになっていった[1]。
現代における主要な活用領域は、大きく以下の4つに分類される[2]。
- モデルと分布の解析: 複雑な変数の集まりがどのような法則で分布しているかを分析する。
- 関係性の測定: 変数同士がどのように影響し合っているかを数値化する。
- 多次元領域の確率計算: 多くの条件が絡み合う中での発生確率を算出する。
- データ構造とパターンの探索:膨大なデータの中に潜むパターンやグループを見つけ出す。
この多変量解析を、物理法則に基づくシミュレーション(物理ベース解析)に適用しようとすると、計算が非常に複雑になる。特に、複数のシステムが階層的に組み合わさった大規模な対象を扱う場合、変数の数(次元数)が増えるにつれて計算量が爆発的に増加し、解析が行き詰まることがしばしばある。これを一般に「次元の問題」と呼ぶ。
こうした問題は、物理ベースのコードの高精度な近似であるサロゲートモデルの使用によって緩和されることが多い。サロゲートモデルは方程式の形をとるため、非常に高速に評価できる。これによって、大規模な多変量解析を可能になる。例えば、設計空間全体にわたるモンテカルロシミュレーションは物理ベースのコードでは困難であるが、応答曲面方程式の形をとることが多いサロゲートモデルを用いることで、こうした高度な解析も容易に行うことが可能である。
基礎となる確率分布
多変量解析では、単変量解析における正規分布などのように、複数の変数を同時に扱うための拡張された確率分布が用いられる。多くの多変量解析モデルは、データがこれらの分布に従うことを前提(あるいは近似)として構築されている。代表的な多変量分布は以下の通りである
- 多変量正規分布 - 多変量解析において最も中心的な役割を果たす分布。単変量の正規分布を多次元に拡張したものであり、主成分分析や線形判別分析など、多くの古典的な手法がデータの多変量正規性を仮定している。
- ウィシャート分布 - 多変量正規分布に従う標本群から得られた「分散共分散行列」が従う確率分布。カイ二乗分布を多変量に拡張したものであり、多変量解析における分散の推定や検定に用いられる。
- 多変量t分布 - スチューデントのt分布を多次元に拡張した分布。外れ値に対して多変量正規分布よりも堅牢(ロバスト)であるため、実データ解析において有用である。
- ホテリングのT2乗分布 - t分布を一般化した多変量分布。複数の変数を持つ2つのグループ間で平均値に差があるかどうかを調べる多変量の統計的仮説検定(平均ベクトルの検定など)で使用される。
不完全なデータの処理
分析の種類
MVAでは多くの異なるモデルが使用されており、それぞれ独自の分析タイプを持っている。
回帰・分散分析
- 重回帰分析/多変量回帰分析 - は、変数のベクトル内の要素が他の変数の変化に対して同時にどのように反応するかを記述できる式を決定しようと試みるものである。線形関係の場合、ここでの回帰分析は一般線形モデルの形式に基づいている。多変量回帰は多変数回帰とは異なると示唆する者もいるが、これについては議論があり、科学分野全体で常に当てはまるわけではない[6]。
- 多変量分散分析(MANOVA)/多変量共分散分析(MANCOVA) - 分散分析を拡張して、同時に分析される複数の従属変数があるケースをカバーするものである。
- 正準相関分析 - 2つの変数セット間の線形関係を見つける。これは2変量相関の一般化(すなわち正準化)されたバージョンである[7]。
- 同時方程式モデル - 異なる従属変数を持つ複数の回帰方程式を含み、それらを一緒に推定する。
- ベクトル自己回帰 - 様々な時系列変数のそれ自身およびお互いの遅行値に対する同時回帰を含む。
次元削減・潜在構造の分析
- 主成分分析(PCA) - 元のセットと同じ情報を含む新しい直交変数のセットを作成する。ばらつきの軸を回転させて、ばらつきの割合が減少する順序に要約されるように新しい直交軸のセットを与える。
- 因子分析 - PCAに似ているが、ユーザーが元のセットよりも少ない指定された数の合成変数を抽出できるようにし、残りの説明できないばらつきを誤差として残す。抽出された変数は潜在変数または因子として知られており、それぞれが観測された変数のグループにおける共変動を説明すると想定される。
- 独立成分分析 - 多変量データから、互いに独立な成分を分離・抽出する手法。
- コレスポンデンス分析(CA)/相互平均法 - PCAのように、元のセットを要約する合成変数のセットを見つける。基礎となるモデルは、レコード(ケース)間にカイ二乗の非類似性があると仮定している。
- 冗長性分析(RDA) - 正準相関分析に似ているが、ある(独立)変数のセットから指定された数の合成変数を導き出し、別の(独立)セットにおける分散を可能な限り説明できるようにするものである[8]。これは回帰の多変量版にあたる[9]。
- 正準コレスポンデンス分析(制約付きコレスポンデンス分析、CCA) - 冗長性分析のように、2つの変数セットにおける同時変動を要約するためのものである。コレスポンデンス分析と多変量回帰分析の組み合わせである。基礎となるモデルは、レコード間にカイ二乗の非類似性があると仮定している。
- 数量化理論 (I類、II類、III類、IV類) - 質的データを量的に扱うための日本独自の多変量解析手法群。
分類・判別・グループ化
- 多次元尺度構成法は、レコード間のペアごとの距離を最もよく表す合成変数のセットを決定するための様々なアルゴリズムで構成される。元の方法は主座標分析(PCoA、PCAに基づく)である。
- 判別分析/正準変量分析 - 変数セットを使用して2つ以上のケースグループを区別できるかどうかを確立しようと試みるものである。
- 線形判別分析(LDA)は、正規分布する2つのデータセットから線形予測子を計算し、新しい観測値の分類を可能にする。
- クラスター分析(クラスタリングシステム) - 同じクラスターのオブジェクト(ケース)が、異なるクラスターのオブジェクトよりも互いに類似するように、オブジェクトをグループ(クラスターと呼ばれる)に割り当てる。
- 再帰的分割 - 二値の従属変数に基づいて母集団のメンバーを正しく分類しようと試みる決定木を作成する。
マッピング・知覚空間の把握
- 多次元尺度構成法 (MDS) - レコード間のペアごとの距離を最もよく表す合成変数のセットを決定するための様々なアルゴリズムで構成される。元の方法は主座標分析(PCoA、PCAに基づく)である。
- コンジョイント分析 - 製品やサービスの持つ複数の要素が、消費者の選択にどう影響するかを分析する手法。
その他
- 人工ニューラルネットワーク - 回帰法やクラスタリング法を非線形多変量モデルに拡張する。
- 主応答曲線分析(PRC) - PDAに基づく方法で、時間の経過に伴う対照処理の変化を補正することにより、ユーザーが時間の経過に伴う処理効果に焦点を当てることを可能にする[10]。
- 多変量データの統計グラフィックス - ツアー、平行座標プロット、散布図行列などの統計グラフィックスを使用して、多変量データを探索できる。
- 相関のイコノグラフィー - 相関行列を、「注目すべき」相関が実線(正の相関)または点線(負の相関)で表される図に置き換えることから成る。
歴史
C.R.ラオは、そのキャリアを通じて、特に20世紀半ばに多変量統計理論に多大な貢献をした。彼の主要な著作の1つは、1952年に出版された「Advanced Statistical Methods in Biometric Research(生物測定学研究における高度な統計手法)」というタイトルの本である。この著作は、多変量統計における多くの概念の基礎を築いた[11]。 アンダーソンの1958年の教科書『An Introduction to Multivariate Statistical Analysis』[12]は、一世代の理論家や応用統計学者を教育した。アンダーソンの本は、尤度比検定を通じた仮説検定と、許容性、不偏性、単調性といった検出力関数の特性を強調している[13][14]。
MVAはかつて、基盤となるデータセットのサイズと複雑さ、およびその高い計算コストのために、統計理論の文脈でのみ議論されていた。計算能力の劇的な向上に伴い、現在MVAはデータ分析においてますます重要な役割を果たしており、オーミクス分野などで広く応用されている。