توسعه و ارزیابی سیستم تشخیص ناهنجاری

2 دقیقه |  2020/10/28

برای ارزیابی الگوریتم یادگیری، داده‌های دارای برچسب را به نمونه‌های ناهنجار و غیرناهنجار دسته‌بندی می‌کنیم. (y = 0 برای نمونه طبیعی و y = 1 برای نمونه ناهنجار).

از بین این داده‌ها، بخش زیادی از داده‌های طبیعی و غیرناهنجار را به مجموعه آموزشی برای آموزش p(x) اختصاص دهید.

سپس بخش کوچکتری از ترکیب نمونه‌های ناهنجار و غیرناهنجار را به مجموعه cross-validation و آزمون اختصاص دهید(معمولا نمونه‌های غیرناهنجار بیشتری خواهید داشت).

برای مثال ممکن است مجموعه‌ای با 0.2% داده ناهنجار داشته باشیم. 60% از نمونه‌هایی که همگی مناسب هستند(y=0) را به مجموعه آموزشی اختصاص می‌دهیم. سپس 20% از نمونه‌ها را به مجموعه cross-validation(با 0.1% از نمونه‌های ناهنجار) و 20% باقیمانده را به مجموعه آزمون(با 0.1% باقیمانده از داده‌های ناهنجار) اختصاص می‌دهیم.

به بیان دیگر ما داده‌ها را به صورت 20/20/60 آموزشی/CV/آزمون تقسیم کرده و سپس نمونه‌های ناهنجار را به صورت 50/50 بین ‌مجموعه‌های CV و آزمون تقسیم می‌کنیم.

ارزیابی الگوریتم

مدل p(x) را روی مجموعه آموزشی {$x^{(1)},…,x^{(m)}$} متناسب می‌کنیم.

روی نمونه x از corss validation/آزمون، به صورت زیر پیش‌ بینی انجام دهید:

اگر $p(x) < \varepsilon $, پس y = 1.

اگر $p(x) \geq \varepsilon $, پس y = 0.

معیارهای ارزیابی احتمالی(به بخش “طراحی سیستم یادگیری ماشین” مراجعه کنید):

  • True positive, false positive, false negative, true negative

  • Precision/recall

  • $F_{1} score$

توجه کنید که از مجموعه cross-validation برای انتخاب پارامتر $\varepsilon$ استفاده می‌کنیم.