دوره یادگیری ماشین دانشگاه استنفورد به فارسی > هفته ششم > منظم سازی و بایاس/واریانس

منظم سازی و بایاس/واریانس

2 دقیقه　|　 2020/10/16

در ادامه به جای بررسی d و تاثیر آن بر بایاس/واریانس، نگاهی به پارامتر مرتب سازی $\lambda$ خواهیم داشت.

$\lambda$ بزرگ به شدت در تمامی پارامترهای $\theta$ ایجاد نقص می‌کند که این مسئله خط تابع حاصل شده را بسیار ساده کرده و موجب underfitting خواهد شد.

رابطه $\lambda$ با مجموعه آموزشی و مجموعه واریانس به صورت زیر است:

$\lambda$ کوچک: $J_{train}(\Theta )$ کم و $J_{CV}(\Theta )$ مقدار زیادی خواهد داشت (واریانس زیاد/overfitting).

$\lambda$ متوسط: مقدار $J_{train}(\Theta )$ و $J_{CV}(\Theta )$ تا حدودی کم خواهد بود و $J_{train}(\Theta ) \approx J_{CV}(\Theta )$.

$\lambda$ بزرگ: هر دو مقدار $J_{train}(\Theta )$ و $J_{CV}(\Theta )$ زیاد خواهد بود (بایاس زیاد/underfitting).

تصویر زیر رابطه بین $\lambda$ و فرضیه را ترسیم می‌کند:

lamda-hypothesis

برای انتخاب مدل و مقدار $\lambda$ در منظم سازی، نیاز داریم که:

$$\lambda \in { 0,0.01,0.02,0.04,0.08,0.16,0.32,0.64,1.28,2.56,5.12,10.24 } $$

مجموعه ای از مدل ها با درجه های متفاوت یا هر تفاوت دیگری بسازید.
بر روی مقادیر $\lambda$ پیمایش کنید و برای هر $\lambda$ تمامی مدل ها را تا یادگیری چند $\Theta$ طی کنید.
خطای cross validation را با کمک $\Theta$ آموخته شده، روی $J_{cv}\left ( \Theta \right )$، و بدون منظم سازی یا $\lambda = 0$ محاسبه کنید.
بهترین ترکیب که کمترین خطا را روی مجموعه cross validation تولید می‌کند انتخاب کنید.
با استفاده از بهترین ترکیب $\Theta$ و $\lambda$، این ترکیب را روی $J_{test}\left ( \Theta \right )$ پیاده کرده تا اطمینان حاصل کنید از اینکه آیا مسئله به خوبی قابل تعمیم است یا خیر.