回帰分析
From Wikipedia, the free encyclopedia
回帰で使われる、最も基本的なモデルは という形式の線形回帰である。
歴史
16世紀後半にはすでに芽生えつつあった回帰分析手法は18世紀になりルジェル・ヨシプ・ボスコヴィッチにより研究手法として体系化された。[2]
教皇ベネディクトゥス14世から子午線弧の測定作業の命を受け、ボスコヴィッチは1755年にその報告書『神父たちによる教皇領における子午線の 2度を測定するための学術探検について』[注 1]を刊行した。この 2年後の1757年に、ボスコヴィッチはこのとき得られたローマ~リミニの弧長や赤道に近いキト(エクアドル)における弧長(フランス科学アカデミーによる測地遠征の成果)など計 5つの地点の弧長からできるだけ精確な扁平率を検討した論稿を刊行している。この1757年の論稿の中でボスコヴィッチは最小絶対値法を示した。
1795年にアドリアン=マリ・ルジャンドルおよびカール・フリードリヒ・ガウスがそれぞれ独立に最小二乗法による回帰分析を考え出していた。この最小二乗法の登場により、大きなサンプル数をもつ回帰係数であっても推定することが可能となった。[3]
ゴルトン
「回帰」という用語は、英語の「regression」からの翻訳であるが、元々は生物学的現象を表すために19世紀にフランシス・ゴルトンによって造られた[4]。ゴルトンは、背の高い祖先の子孫の身長が必ずしも遺伝せず、先祖返りのように平均値に戻っていく、すなわち「逆戻り、後戻り(=regression)」する傾向があることを発見した。これを「平均への回帰」という。ゴルトンはこの事象を分析するために「線形回帰(英: linear regression)」を発明した。ゴルトンにとって回帰はこの生物学的意味しか持っていなかったが、のちに統計学の基礎となり、「回帰(英: regression)」という用語も統計学へ受け継がれたのである。
概要
回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。
従属変数(目的変数)とは、説明したい変数(注目している変数)を指す。独立変数(説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみると次のようになる。経済全体の消費()を国民所得()で説明する消費関数が というモデルで表されるとする。この例では、消費 Y が従属変数、国民所得 X が独立変数に対応する。そして 、 といった係数(パラメータ)を推定する。
最も単純な方法は上式のような一般化線形モデルを用いる線形回帰であるが、その他の非線形モデルを用いる非線形回帰もある。
回帰分析において、統計量だけに依存せず可視化も必要という教育的意義を持つ代表事例として、アンスコムの例(Anscombe's quartet)がある。1973年に統計学者フランク・アンスコムが提案した4つのデータセットであり、それぞれの散布図は異なるにもかかわらず、平均・分散・相関係数・回帰直線などの基本統計量がほぼ同一となる[5]。この例は、回帰分析において数値的指標だけに依存することの危険性を示し、グラフによる可視化の必要性を示すものである。
回帰モデル
最小二乗法による推定
パラメータを推定する代表的な方法として、最小二乗法がある。これは、二乗和誤差を最小化する最尤推定法の一つである。
最小二乗法の概要は次の通りである。初めに回帰式(目的変数を説明変数で計算する式)を設定する。次に、回帰式の係数を求めるが、「従属変数の測定値と、独立変数の測定値および回帰式を用いて求めた推定値の差の二乗和誤差」が最小になるように求める。線形モデルの場合、回帰式の係数で推定値の差の2乗平均を微分し0と置いた連立方程式を解いて求められる。
また、初めから外れ値と判明しているデータについては、除外してから最小二乗法を用いるケースもある。その他の外れ値への対応策はこちらを参照されたり[6]。
独立変数同士の相関
マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は強い相関がないという仮定が入っている。そのため、一般化線形モデルで説明変数同士が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある(これは多重共線性と呼ばれる)。
- 例:小学校での定期テスト得点から重回帰で分析する場合に、理科の点数を従属変数に、算数と国語を説明変数にした場合、算数が増えると理科の点数が多く、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。これは算数と国語の点数に強い相関が両者にあるからである。この場合は算数と国語の平均点と、算数と国語の得点の差というように和と差に数字を加工すると、この2つは相関が大抵低く、かつ解釈しやすい。算数と国語の得点の差は、算数の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるからである。
これは、線形モデルの問題であるため、線形モデルが不適切ならば、非線形モデルを使用すればよい。また、共分散構造分析という重回帰より複雑な関係を適切に説明できるモデルもある。
