標本平均・標本共分散
From Wikipedia, the free encyclopedia
標本平均(ひょうほんへいきん、英: sample mean; sample average)および標本共分散(ひょうほんきょうぶんさん、英: sample covariance)は、1つまたは複数の確率変数に関するデータの標本から算出された統計量である。
標本平均とは、母集団(英: population)から抽出された標本の数値から算出される平均値である。標本平均は、母集団全体の平均値である母集団平均の推定量として用いられる。標本が十分に大きく、かつ代表性が高ければ高いほど、その推定値は母集団平均に近い値となる可能性が高くなる。標本平均の信頼性は標準誤差を用いて推定され、標準誤差は標本の分散を用いて計算される。標本が無作為抽出されたものである場合、標準誤差は標本サイズの増加に伴い小さくなり、標本平均の分布は正規分布に近づく。
「標本平均」という用語は、統計学者が標本内の複数の変数の値を検討する場合、それらの平均値のベクトルを指すのにも用いられる。この場合、各変数ごとに標本分散があるだけでなく、各変数間の関係を示す標本共分散を計算できる。これは分散共分散行列 (あるいは単に共分散行列) の形をとり、変数が 個あればこれは のサイズを持つ行列となる。標本共分散は、標本平均が推定量としての信頼性を判断する際に有用であり、母集団共分散行列の推定値としても有用である。
計算が容易であることなどの利点から、標本平均や標本共分散は統計学上、標本内の値の確率分布の位置やばらつきを表すため、あるいは母集団の値を推定するために、広く用いられている。
標本平均とは、標本に含まれるある変数の値の平均値であり、それらの値の合計を値の個数で割ったものである。数式で表せば、母集団から変数 の観測値 個の標本が抽出された場合、標本平均 は次のように表される:
が確率変数であるため、 もまた確率変数である。すなわち、同じ母集団から得られた標本平均でも、何度も試行すれば標本平均として算出される数値も異なる可能性がある。
次元の確率変数に興味がある場合、各標本はそれぞれ 個の観測値からなり、個々の変数に対する標本平均 個から確率変数全体の標本平均が構成される。以下では、 番目の標本の 番目の成分を と表し、 番目の標本の観測値を次の列ベクトル として表すとする:
この時、標本平均ベクトル を、次のような各成分ごとの標本平均を縦に並べた列ベクトルとして定義する:
すなわち、標本平均ベクトルの 番目の成分は、標本から 番目の成分だけを抜き出して構成される一変量データの標本平均と一致する:
標本共分散の定義
標本共分散は のサイズを持つ行列 として表せ、その各成分は
である。こうして計算される は、母集団の 番目の要素と 番目の要素との共分散の推定量として用いることができる。先に定義した列ベクトル表記を用いれば、
となる。ただし、式中でTは転置を表す。別の表記法として、列ベクトルを並べて構成できる以下の 行 列の行列
を定義すると、標本共分散は
として与えられる。ここで、 は全ての要素が 1 であるような 次行ベクトルである。
さらに、を用いて標本共分散を定義するのであれば、
として表せる。
多変量確率変数の共分散行列と同様、標本共分散行列もまた半正定値である。これは任意の行列 に対して、行列 が半正定値行列であることから直ちに従う。さらに、標本共分散行列が正定値であることと、 のランクが であることは同値である。
不偏性
標本平均の分布
どの確率変数についても、標本平均は母集団平均の「優れた」推定量である。ここで、「優れた」推定量とは、効率(統計学)が良く、さらに不偏であることを指す。もちろん、同じ分布から抽出した異なる標本では異なる標本平均が得られ、ひいては真の平均に対する異なる推定値となるため、その推定量が母集団平均の真の値そのものであるとは限らない。したがって、標本平均は定数ではなく確率変数であり、その結果として独自の分布を持つことになる。
簡単な例として、母集団が平均 、分散 であるような正規分布である場合、 個の標本から計算される標本平均の従う分布も正規分布である。具体的には、平均 、 分散 である正規分布に従う。
母集団が正規分布に従わない場合でも、標本サイズ が十分に大きく、かつ が有限であれば、標本平均はおおよそ正規分布に従う。これは中心極限定理の帰結である。