誤差の範囲

誤差の範囲（ごさのはんい、英: margin of error、略称: MOE）とは、統計学において、標本調査やその他の推定手続によって得られた点推定の不確実性を、所定の信頼水準のもとで幅として表したものである。通常は、推定値の前後に付される「±」の値を指し、対応する信頼区間の半幅に相当する。誤差の範囲は、一般に推定量の標準誤差に、信頼水準に対応する臨界値を乗じたものとして与えられる。^[1]

世論調査や公的統計では、「95%信頼水準で±3パーセントポイント」のような形で提示されることが多い。この値が直接に表しているのは、通常、同一の抽出・推定手続を反復した場合に生じる標本誤差の大きさであって、無回答バイアス、被覆誤差、測定誤差、設問文言効果、集計・処理上の誤差などの非標本誤差を包括的に表すものではない。American Association for Public Opinion Research（AAPOR）は、確率標本に基づく世論調査における margin of sampling error と、非確率標本で用いられることのある credibility interval とを区別している。^[2]^[3]

母集団全体を完全に観測できないとき、研究者はその一部である標本から母数を推定する。このとき、同じ母集団から同じ方法で標本抽出を繰り返しても、得られる推定値は標本ごとに変動する。誤差の範囲は、この変動の程度を区間の半幅として表す量である。^[1]

誤差の範囲は、しばしば信頼区間とほぼ同義的に扱われるが、厳密には信頼区間そのものではなく、その半幅である。たとえば、ある比率推定値が50%、誤差の範囲が±3パーセントポイントであれば、対応する区間は47%から53%である。AAPOR は、これは「全数調査を行っていないことの代償」として生じる標本抽出上の不確実性を表すものだと説明している。^[2]

また、誤差の範囲は、推定対象、推定量の分布、標本サイズ、抽出法、加重の有無、複雑標本設計、採用する信頼水準などに依存する。したがって、異なる調査間で単純に「±3%対±4%」のみを比較して精度を論じることは適切でない場合がある。米国勢調査局も、推定値の比較や再集計では、標準誤差や誤差の範囲を改めて計算する必要があるとしている。^[4]^[5]

歴史

誤差の範囲という考え方は、区間推定および標本調査の発展と密接に結びついている。19世紀末から20世紀初頭にかけては、社会調査や公的統計では悉皆調査の理念がなお強かったが、20世紀前半には確率標本に基づく推定理論が整備され、標本から母集団の特性を区間として推定する考え方が定着した。標本調査史の概説では、近代的な標本調査法の成立を19世紀末以降の展開として位置づけ、1930年代を重要な転換点としている。^[6]

とくに Jerzy Neyman は1937年の論文において、古典確率論に基づく統計的推定理論を提示し、信頼区間に基づく推定の理論的基礎を与えた。Neyman は、信頼区間が真の母数を所定の確率で被覆するような手続として定式化しており、この枠組みは後の誤差の範囲の理解の基礎となった。^[7]

こうした理論的基盤のうえで、1930年代には Gallup、Roper、Crossley らによる世論調査が広く知られるようになり、少数の標本から母集団の意見を推定する実務が社会的に普及した。AAPOR の通史は、1930年代から1940年代にかけての世論調査の制度化を、後の調査方法論の形成にとって重要な時期として位置づけている。日本においても、統計的標本抽出理論に基づく「科学的」世論調査の成立が、統計学と世論調査研究の接点として論じられている。^[8]^[9]

その後、調査方法論では、標本誤差だけでなく、無回答、被覆不足、測定誤差などを含む総調査誤差の観点が重視されるようになった。AAPOR の通史および近年の指針は、非確率標本の普及に伴って、古典的な意味での margin of sampling error をどこまで適用できるかが再び論点になったことを示している。^[8]^[10]

定義

推定量を ${\hat {\theta }}$ 、その標準誤差を $\operatorname {SE} ({\hat {\theta }})$ 、両側 $100(1-\alpha )\%$ 信頼区間に対応する臨界値を $c_{1-\alpha /2}$ とすると、誤差の範囲 $E$ は一般に

E=c_{1-\alpha /2}\operatorname {SE} ({\hat {\theta }})

と表される。対応する区間推定は

{\hat {\theta }}\pm E

である。^[1]

米国勢調査局は、American Community Survey において 90%信頼水準の誤差の範囲を標準的に公表しており、実務上は $\mathrm {MOE} =1.645\times \mathrm {SE}$ の関係が用いられる。^[11]

信頼区間との関係

誤差の範囲は、通常、頻度論的な区間推定の枠組みで理解される。総務省統計局は、95%信頼区間について、「母集団から標本をとりだし、その標本から95%信頼区間を求める」ことを100回実施したとき、95回程度はその区間内に母平均が入ることを表すと説明している。また、母平均は未知ではあっても固定された値であり、得られた標本のもとで母平均がその区間内にある確率が95%である、という意味ではないことにも注意を促している。^[12]

同様の説明は日本語の百科事典でも確認できる。『改訂新版世界大百科事典』の「統計的推定」は、区間推定を「ある定められた確率で未知パラメーターを含むような区間を構成する方式」と説明し、このような区間は反復的に構成したときに約 $100(1-\alpha )$ 回、真の母数を含むという意味をもつとしている。^[13]

数理的定式化

母比率の推定

単純無作為抽出により得られた標本サイズを $n$ 、標本比率を ${\hat {p}}$ とすると、大標本近似のもとで母比率に対する誤差の範囲は、代表的には

E=z_{1-\alpha /2}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}

で与えられる。95%信頼水準では

E\approx 1.96{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}

となる。^[2]

この式から、誤差の範囲は標本サイズ $n$ の平方根に反比例して減少する。また、 ${\hat {p}}(1-{\hat {p}})$ は ${\hat {p}}=0.5$ のとき最大となるため、同一の標本サイズでは50%近傍で誤差の範囲が最大になる。日本の公的調査の調査計画でも、母比率 0.5 を仮定し、95%信頼区間の片側幅 $1.96\times \mathrm {SE}$ を一定以下に抑える形で必要標本サイズを定める例が見られる。^[14]

母平均の推定

母平均 $\mu$ を標本平均 ${\bar {x}}$ で推定する場合、母標準偏差 $\sigma$ が既知、または大標本近似が妥当であれば、

E=z_{1-\alpha /2}{\frac {\sigma }{\sqrt {n}}}

と表される。母分散未知で標本サイズが大きくないときには、スチューデントのt分布に基づく区間推定が用いられる。総務省統計局や『世界大百科事典』も、区間推定の基本例としてこの枠組みを説明している。^[12]^[13]

派生推定量

誤差の範囲は、平均や比率だけでなく、差、和、比、回帰係数、加重推定量などの派生推定量にも定義される。ただしその場合、元の推定値に付された誤差の範囲を単純に転用することはできず、対象量に応じた分散推定が必要となる。米国勢調査局は、地理的集約や属性集約を行う場合、再計算された標準誤差と誤差の範囲を用いるよう説明している。^[5]

有限母集団補正

母集団サイズ $N$ が有限であり、そこから復元しない抽出を行う場合、単純無作為抽出における分散は有限母集団補正（finite population correction）によって縮小される。母比率の近似区間は

{\hat {p}}\pm z_{1-\alpha /2}{\sqrt {{\frac {{\hat {p}}(1-{\hat {p}})}{n}}\cdot {\frac {N-n}{N-1}}}}

と表される。抽出率 $n/N$ が十分に小さいとき、補正は 1 に近づくため無視されることも多いが、小さな母集団や高抽出率では無視できないことがある。^[15]

近似法と代替区間

誤差の範囲は、しばしば正規近似に基づく対称的な区間の半幅として扱われる。しかし、比率の区間推定では、標本サイズが小さい場合や推定値が0または1に近い場合、いわゆる Wald 型区間は被覆率の面で十分でないことがある。NIST は、二項比率の区間について Wilson 法や Agresti–Coull 法を紹介し、Wilson 法が Brown・Cai・DasGupta (2001) や Agresti・Coull (1998) により推奨されていると説明している。^[16]

このため、誤差の範囲という表現は実務上きわめて便利である一方、非対称な区間や厳密区間が望ましい場合には、単一の「±」表示だけでは区間の性質を十分に表現できないことがある。^[16]

複雑標本設計

実際の大規模調査では、層化抽出法、多段抽出法、クラスター抽出、加重調整などを伴う複雑標本設計が一般的である。この場合、単純無作為抽出を前提とする公式だけでは誤差の範囲を正しく評価できない。『世界大百科事典』の「標本調査」も、標本調査を抽出法・推定法と不可分のものとして説明している。^[4]^[17]

複雑標本設計は、推定量の分散を単純無作為抽出時より増大させることもあれば、層化により減少させることもある。この差異は設計効果として表される。加重の不均一性は有効標本サイズを低下させ、誤差の範囲を拡大させうる。AAPOR は、報道用の誤差の範囲を示す場合でも、加重や設計効果を考慮した記述が必要になることを示している。^[2]^[18]

非標本誤差と総調査誤差

誤差の範囲が直接表すのは、通常、標本抽出に伴う不確実性である。しかし現実の調査では、無回答、被覆不足、質問文、調査モード、インタビュアー効果、集計処理など、多様な非標本誤差が結果に影響を与える。AAPOR は、調査の質を評価する際には、誤差の範囲だけでなく、質問文、対象母集団、抽出法、回収、加重、調査主体などの透明な開示が必要だとしている。^[3]

この点は、選挙予測や政治報道においてとくに重要である。誤差の範囲が小さく見えても、無回答の偏りや加重の不備が大きければ、結果の妥当性が高いとは限らない。AAPOR の近年の解説でも、報道において margin of error だけを精度の唯一の指標とみなすことへの注意が促されている。^[3]

非確率標本

古典的な意味での誤差の範囲は、各単位の抽出確率が定義された確率標本を前提としている。これに対し、自己選択型インターネット調査などの非確率標本では、単純無作為抽出に基づく誤差の範囲をそのまま適用することはできない。AAPOR は、こうした場合に credibility interval などの語が用いられることがある一方で、それは従来の margin of sampling error とは前提も解釈も異なると説明している。^[2]

また、AAPOR のオンライン標本に関する報告書は、非確率標本の品質評価においては、バイアス、比較ベンチマーク、回答行動、重みづけ、モデル依存性など、誤差の範囲以外の指標が重要になることを示している。^[10]

公的統計における用法

公的統計では、推定値とともに標準誤差または誤差の範囲を公表し、統計的有意差の判定や利用上の注意を併記することがある。米国勢調査局の American Community Survey は、各推定値に 90%信頼水準の誤差の範囲を付して公表し、再集計や派生推定量については利用者が近似式により標準誤差と誤差の範囲を計算する方法を示している。^[1]^[5]^[11]

日本の公的調査でも、調査計画や方法書において、95%信頼区間、1.96、母比率0.5を用いた最大標本誤差の設計が示される例がある。これは、日本語圏の実務でも誤差の範囲に相当する考え方が広く用いられていることを示す。^[14]

世論調査における位置づけ

誤差の範囲は、世論調査結果の解釈における代表的な精度指標の一つである。候補者や政党の支持率の差が小さい場合、その差が標本誤差の範囲内にとどまるなら、結果の差を断定的に解釈することは慎重であるべきとされる。AAPOR の報道向け資料も、設問文言、実施時期、対象母集団、標本抽出法、加重の有無と並んで、誤差の範囲を読む際の注意点を挙げている。^[19]

日本においても、吉野諒三は「科学的」世論調査の価値を、歴史・理論・実践の三位一体として論じており、標本抽出理論に基づく調査の成立を強調している。誤差の範囲は、そのような科学的世論調査の精度を一般読者に説明する際の代表的な装置の一つである。^[9]

解釈上の留意点

誤差の範囲は、通常、標本誤差の大きさを表すものであり、調査誤差全体を要約する指標ではない。^[3]
得られた一つの95%信頼区間について、真の母数がそこに入る確率が95%である、という意味ではない。^[12]^[13]
下位集団分析では有効標本サイズが小さくなるため、全体集計より誤差の範囲が大きくなることが多い。^[2]^[18]
非確率標本では、確率標本と同じ意味での誤差の範囲を与えることはできない。^[2]^[10]
比率の区間推定では、対称的な「±」表示が常に最良とは限らず、区間の構成法によっては非対称になることがある。^[16]

歴史

定義