دوره یادگیری ماشین دانشگاه استنفورد به فارسی > هفته ششم > ارزیابی فرضیه

ارزیابی فرضیه

2 دقیقه　|　 2020/10/04

خطاهای موجود در پیش بینی هایتان را با استفاده از روش های زیر می‌توانید عیب یابی کنید:

جمع آوری داده های آموزشی بیشتر
استفاده از مجموعه های ویژگی کوچکتر
امتحان کردن ویژگی های اضافی
استفاده از ویژگی های چند جمله ای
افزایش یا کاهش مقدار $\lambda$

برای عیب یابی یکی از راه های ذکر شده در بالا را به صورت تصادفی انتخاب نکنید، در بخش های بعدی تکنیک هایی برای انتخاب یکی از راه حل ها را بررسی می‌کنیم.

ارزیابی یک فرضیه

یک فرضیه ممکن است برای یک نمونه آموزشی مقدار خطای کمی داشته باشد اما همچنان نادرست باشد (به دلیل overfitting).

یک مجموعه داده از نمونه های آموزشی را می‌توانیم به دو مجموعه جدا تقسیم کنیم:

۱. مجموعه آموزش

۲. مجموعه آزمون

روش جدید با استفاده از این دو مجموعه به صورت زیر خواهد بود:

یادگیری $\Theta$ و کمینه کردن مقدار $J_{train}\left ( \Theta \right )$ با استفاده از مجموعه آموزشی
محاسبه خطای مجموعه آزمون $J_{test}\left ( \Theta \right )$

محاسبه خطای مجموعه آزمون

برای رگرسیون خطی: $$ J_{test\left ( \Theta \right )} = \frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}\left ( h_{\Theta }\left ( x_{test}^{(i) } \right ) - y_{test}^{(i)} \right )^{2} $$
برای طبقه بندی - خطای طبقه بندی غلط: $$ err(h_\Theta(x),y) = \begin{matrix} 1 & \mbox{if } h_\Theta(x) \geq 0.5\ and\ y = 0\ or\ h_\Theta(x) < 0.5\ and\ y = 1\newline 0 & \mbox otherwise \end{matrix} $$

این به ما یک نتیجه دودویی به صورت 0 یا 1 می‌دهد، که بر اساس طبقه بندی غلط است.

میانگین خطای آزمون، برای مجموعه داده آزمون به این صورت است: $$ Test Error = \frac{1}{m_{test}}\sum_{i=1}^{m_{test}}err(h_{\Theta }(x_{test}^{(i)}), y_{test}^{(i)}) $$

که این به ما نسبت داده های آزمونی که در طبقه بندی غلط قرار دارند را می‌دهد.