برای ارزیابی الگوریتم یادگیری، دادههای دارای برچسب را به نمونههای ناهنجار و غیرناهنجار دستهبندی میکنیم. (y = 0 برای نمونه طبیعی و y = 1 برای نمونه ناهنجار).
از بین این دادهها، بخش زیادی از دادههای طبیعی و غیرناهنجار را به مجموعه آموزشی برای آموزش p(x) اختصاص دهید.
سپس بخش کوچکتری از ترکیب نمونههای ناهنجار و غیرناهنجار را به مجموعه cross-validation و آزمون اختصاص دهید(معمولا نمونههای غیرناهنجار بیشتری خواهید داشت).
برای مثال ممکن است مجموعهای با 0.2% داده ناهنجار داشته باشیم. 60% از نمونههایی که همگی مناسب هستند(y=0) را به مجموعه آموزشی اختصاص میدهیم. سپس 20% از نمونهها را به مجموعه cross-validation(با 0.1% از نمونههای ناهنجار) و 20% باقیمانده را به مجموعه آزمون(با 0.1% باقیمانده از دادههای ناهنجار) اختصاص میدهیم.
به بیان دیگر ما دادهها را به صورت 20/20/60 آموزشی/CV/آزمون تقسیم کرده و سپس نمونههای ناهنجار را به صورت 50/50 بین مجموعههای CV و آزمون تقسیم میکنیم.
ارزیابی الگوریتم
مدل p(x) را روی مجموعه آموزشی {$x^{(1)},…,x^{(m)}$} متناسب میکنیم.
روی نمونه x از corss validation/آزمون، به صورت زیر پیش بینی انجام دهید:
اگر $p(x) < \varepsilon $, پس y = 1.
اگر $p(x) \geq \varepsilon $, پس y = 0.
معیارهای ارزیابی احتمالی(به بخش “طراحی سیستم یادگیری ماشین” مراجعه کنید):
True positive, false positive, false negative, true negative
Precision/recall
$F_{1} score$
توجه کنید که از مجموعه cross-validation برای انتخاب پارامتر $\varepsilon$ استفاده میکنیم.