陰性のデータは1万件近く集めることができましたが、陽性のデータは100件しか集められませんでした。このように、陽性・陰性というクラス間でデータ数に明らかな偏りがあるケースを不均衡データ︵inbalanced data︶といいます。 不均衡データの問題点 評価上の問題 これは教科書的な問題で、﹁精度︵Accuracy︶が機能しない﹂という点です。例えば先程の例で陰性がデータ全体の99%なら、ありとあらゆるデータに対して陰性と判定︵$y=0$︶する分類器を作れば、その時点で精度99%を達成してしまいます。 こんなイメージです。機械学習なんていらないですね。笑っちゃうかもしれませんが、実は機械学習を使っても﹁return 0﹂みたいな状態に最適化が向かうことがあります︵後述︶。 今最適化での解の問題はおいておくとして、あくまで評価上の問題なら、Precision, Recall, ROC曲線、F