1. 前提知識
1.1. 分類問題における正解・不正解パターン
正解(実測) | 不正解(実測) | |
---|---|---|
正解(予測) | TP | FP |
不正解(予測) | FN | TN |
TP (True Positive): 実測値、予測値がともに正であるもの
FP (False Positive): 実測値が負なのに、間違えて予測値が正であると予測したもの
FN (True Negative): 実測値が正なのに、間違えて予測値が負であると予測したもの
TN (False Negative): 実測値、予測値がともに負であるもの
2. Precisionとは
Precisionは日本語だと適合率のことを言います。 Precisionでは、「正と予測したものが、どれだけ正しかったか」を測る指標
数式にすると $$ \frac{TP}{TP+FP} $$
図にするとこんな感じで正解と予測したもののうち実際に正解である割合を示します。
仮に良いモデルの場合は正解と予測したものをすべて正解に属するようなモデル(つまり、Precision=1となるようなモデル)が良いモデルである。
しかし、Precisionだけでは、FNの考慮をしておらず不正解データに対して正しく分類できていない場合でも高い値を返してしまうという問題がある
そこで、この欠点を補うのがRecall(再現率)となる。
3. Recallとは
Recallは日本語だと再現率のことを言う Recallでは、「実際に正だったもののうち、どれだけ正と予測できたか」を測る指標
数式にすると $$ \frac{TP}{TP+FN} $$
図にするとこんな感じで実際に正解であったデータのなかで、実際に正解と予測できたものの割合を示します。
4. F1値とは
F1値とは「PrecisionとRecallの調和平均」のこと
数式にすると $$ F1=\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}}=2\frac{Precision \times Recall}{Precision + Recall} $$