P-Pプロット
From Wikipedia, the free encyclopedia
P-Pプロット(英: P–P plot)は統計学における確率プロットの一つ。2つのデータセット同士がどの程度一致しているか、またはあるデータセットがフィッティングモデルとどの程度適合しているかを視覚的に評価するために用いられる。P-Pプロットという単語において、Pは確率(Probability)またはパーセント(Percent)の略であり、それゆえ probability–probability プロット ないし percent–percent プロットと呼ばれることもある。

P-Pプロットでは、縦軸・横軸にそれぞれのデータセット・確率モデルにおける累積分布関数がプロットされる。もし、比較対象の2つがよく似ていれば、P-Pプロット上ではほぼ直線のようになる。この挙動は、より広く用いられるQ–Qプロットと類似しており、しばしばこれら2つの確率プロットは混同される。
定義
P-Pプロットでは、2つの累積分布関数(CDF)がプロットされる[1]。具体的には、累積分布関数がそれぞれ であるような2つの確率分布があるとした時、P-Pプロットは媒介変数 を用いたパラメトリック方程式 を描くことで得られる。CDFの値域がであるので、このパラメトリックなグラフの定義域は であり、値域は単位正方形 である。
従って、ある入力 に対する出力は、確率分布 それぞれで 以下の値を得る確率を表す数字のペアである。
P-Pプロットの比較対象は と を通る 45° の線分であり、2つの分布はP-Pプロットがこの線上に位置する場合に限り等しい。P-Pプロットとこの線分との乖離によって、2つの確率分布がどの程度異なるかが視覚的にわかりやすく表現される。ただし、現実のデータを用いる場合はサンプリング誤差によって同一の分布からのサンプルであっても必ずしも比較線に一致するとは限らない[2]。
例
簡単な例として、2つの連続確率分布の定義域が重ならない状況を考える。ここでは を満たす最小の を、 を満たす最大の を として、 が成立しているとしよう。すると、CDFの単調非減少性により、
- では、 が に含まれる任意の値を取れる一方、 が常に成立する
- では、 が常に成立する
- では が に含まれる任意の値を取れる一方、 が常に成立する
ことがわかるので、これら2つの分布に対してP-Pプロットを描くと、
- から までの線分 (に対応)
- から までの線分 (に対応)
という2本の線分からなるグラフとなる。なお、 ではCDFが変化しないのでP-Pプロット上では全て に対応する。
用途
上記の例が示すように、2つの分布が物理的に分離されているような状況では、P-Pプロットがもたらす情報はほとんどない。P-Pプロットが有益なのは、2つの確率分布の定義域が近いか同じ状況のみである。特に、2つの分布の中央値が一致するときのみP-Pプロットはを通過する。
時として、P-Pプロットはサンプルと理論的モデル分布との比較ではなく、二つのデータセット間の比較に限定されることがある[3]。しかし、P-Pプロットは一般的な比較手法として汎用性が高く、特にサンプルがすべて同一の分布でモデル化されていない場合に有用である。
P-Pプロットは、既知の理論分布と標本分布を比較する際にある程度有用であることが判明している。標本分布が 個のサンプルからなるとした時、理論分布のCDFを横軸・標本分布の経験分布関数を縦軸として描いたP-Pプロットは階段状になる( がサンプル点に到達するたびに段差が生じる)。このグラフはサンプル点の最大値で単位正方形の上辺に達することになる。実用上は、階段状のグラフ全体ではなく、 番目のサンプル点(形式的には 番目の順序統計量)を、理論分布の 分位数 に対してプロットすることがある[3]。 この「プロット位置」(理論分布の分位点との対応関係)の選択は、Q–Qプロットのそれよりは論争を呼んでいない。45° 線との当てはまりの良さが、標本分布と理論分布との差異の尺度を与える。
P-Pプロットは、確率分布の当てはめの検証において図式的な補助具として利用することができる[4][5]。 その場合は、予想される1:1線からの逸脱や、当てはめとして許容される特定の領域を説明する追加の線が描かれることがある。
P-Pプロットの改良版として、SPプロット (英: SP plot, S–P plot, Stabilized Probability Plot)というものが存在する[4][5]。このプロットでは分散安定化変換を用いることで、1:1線からの変動による影響が全位置で均一となるプロットを作成する。
関連項目
- Q-Qプロット
- 正規確率プロット