F値 (評価指標)
テストの精度を示す指標
From Wikipedia, the free encyclopedia
F値(F尺度とも、英: F-measure、F-score)は、二項分類の統計解析において精度を測る指標の一つである。F値は適合率と再現率から計算される。適合率とは陽性と予測したもののうち(この中には正しく予測できていないものも含まれる)実際に正しく予測できたものの割合で、再現率は全ての陽性のうち実際に陽性であると予測できたものの割合である。適合率は陽性的中率(Positive predict value、PPV)とも、再現率は感度 (sensitivity) と呼ばれることもある。

F1 Score(F1)は適合率と再現率の調和平均で計算される。より一般的なF値も考えることができて、重み付けF値 (Weighted F-score) は適合率または再現率に何らかの重みをかけた上で調和平均をとって算出する。
F値が取りうる最大値は1.0であり、これは適合率と再現率がともに1.0 (=100%) の場合である。逆にF値がとりうる最小値は0で、このとき適合率と再現率の少なくともいずれかが0である。
言葉の由来
F値 (F Score) という名前は、第4回メッセージ理解会議(MUC-4, 1992)で紹介されたとき、Van Rijsbergen 氏の著書に記載されていた別のF関数にちなんで名付けられたとされている[1]。
定義
従来のF値またはバランスF値(F1Score)[訳語疑問点]は、適合率と再現率との調和平均である。
F1 Scoreは、実整数係数 を用いてより一般化して定義できる。 ここで β は、適合率と比較して再現率を何倍重視するかを表す係数である[2]。
第一種過誤と第二種過誤に関しては、これは次のようになる。
- 。
特に再現率をより重視する目的で β=2、適合率をより重視する目的で β=0.5 としたものがよく使われる。
Van Rijsbergenの有効性尺度に基づいている。
- 。
ただし、
調和平均としての記述
応用
批判
Fowlkes–Mallows インデックスとの違い
多クラス分類への拡張
F値は、3つ以上のクラスの分類問題(多クラス分類)の評価にも用いられる。この設定では、最終的なスコアは、ミクロ平均(クラスの頻度によるバイアスがある)またはマクロ平均(すべてのクラスを同等に重要視する)によって得られる。マクロ平均では、2つの異なる計算式が使用される。すなわち、クラスごとの適合率と再現率の平均に基づくF値、ないしクラスごとのF値の平均ある。後者の方がより望ましい特性を示す[10]。