パープレキシティ

From Wikipedia, the free encyclopedia

情報理論において、パープレキシティ: perplexity)は、確率分布確率モデルサンプルをどの程度正確に予測するかを示す指標である。確率モデルを比較するために使用することができる。パープレキシティが低いということは、確率分布がサンプルを予測するのに優れていることを示している。

離散確率分布 のパープレキシティ は次のように定義される。

ここで、 は分布のエントロピー(ビット単位)であり、 はイベントの範囲である。(基数はである必要はない。そのエントロピーとべき乗の基数が同じ場合、パープレキシティは基数に依存しない。) この尺度は、ある学問領域では(次数の真の)多様性 (en:英語版) としても知られている。

確率変数 のパープレキシティは、その可能な値 に対する分布のパープレキシティと定義することができる。

が公平な 面ダイス( 個の離散イベントに対する一様分布)をモデル化している特別な場合、そのパープレキシティは である。パープレキシティが の確率変数は、公平な 面ダイスと同じ不確実性を持ち、その確率変数の値について「 点パープレックス(-ways perplexed)」であるという。(公平な 面ダイスでない限り、 を超える値が可能であるが、これらの値の中には より大きい確率を持つものがあり、それを合計すると全体の値が減少するため、全体の不確実性は増加しない)。

パープレキシティは、予測問題の難しさを示す尺度として使われることがある。しかし、必ずしも正確ではない。2つの選択肢があり、そのうち1つの確率が 0.9 だとすると、最適な戦略で正解する確率は 90 %である。パープレキシティは である。パープレキシティの逆数(公平な 面ダイスの場合、正しく推測できる確率を表す)は、0.9 ではなく、1/1.38 = 0.72 である。

パープレキシティはエントロピーの指数化であり、より明確な量である。エントロピーとは、たとえば理論的に最適な可変長符号を使用して、確率変数の結果を符号化するために必要なビット数の期待値、あるいは平均値を示す尺度である。これは、確率変数の結果を学習することによる期待情報利得と等価と考えることができる。

確率モデルのパープレキシティ

未知の確率分布 p のモデルは、p から抽出された訓練サンプルに基づいて提案されることがある。提案された確率モデル q が与えられたとき、同じく p から抽出された別のテストサンプル x1, x2, ..., xN をどの程度予測できるかを問うことによって q を評価することができる。モデル q のパープレキシティは次のように定義される。

ここで、 は通常 2 とされる。未知分布 p のより優れたモデル q は、テストイベントにより高い確率 q(xi) を割り当てる傾向がある。したがって、そのパープレキシティは低くなり、テストサンプルに当惑することは少なくなる。

上記の指数は、q に基づく最適な符号を使用した場合に、テストイベント xi を表現するのに必要な平均ビット数と考えることができる。パープレキシティが低いモデルは、テストサンプルを圧縮することに優れていて、 q(xi) が高くなる傾向にあるため、テスト要素あたり必要とするビット数は平均して少なくなる。

指数 は、交差エントロピーと解釈することもできる。

ここで、 はテストサンプルの経験分布英語版を表す(すなわち、サイズ N のテストサンプルに xn 回出現した場合、)。 カルバック・ライブラー情報量の定義により、これはとも等しく、これは となる。したがって、 のときに、パープレキシティは最小となる。

単語ごとのパープレキシティ

脚注

関連項目

Related Articles

Wikiwand AI