همگرایی گرادیان کاهشی تصادفی

1 دقیقه |  2020/11/29

چگونه می‌توان نرخ یادگیری α را برای گرادیان کاهشی تصادفی انتخاب کرد؟ همچنین چگونه می‌توان گرادیان کاهشی تصادفی را اشکال زدایی کرد تا مطمئن شویم که تا حد ممکن به مینیمم کلی نزدیک شده است؟

یک استراتژی رسم میانگین هزینه فرضیه اعمال شده در هر 1000 یا حدود نمونه آموزشی است. ما می‌توانیم این هزینه ها را در طی تکرارهای گرادیان کاهشی محاسبه و ذخیره کنیم.

با یک نرخ یادگیری کوچک، ممکن است شما یک راه حل کمی بهتر با گرادیان کاهشی تصادفی داشته باشید. دلیل این امر این است که گرادیان کاهشی تصادفی در نوسان است و به مینیمم کلی می پرد و جهش های تصادفی کوچکتری را با سرعت یادگیری کمتری انجام می‌دهد.

اگر برای ترسیم عملکرد الگوریتم خود تعداد نمونه هایی را که بیشتر از میانگین هستند را افزایش دهید، خط طرح نرم و صاف می‌شود.

با تعداد بسیار کمی نمونه برای میانگین، خط بسیار نویز داری خواهد بود و یافتن روند کار دشوار است.

یک استراتژی برای تلاش به رسیدن همگرایی در مینیمم کلی این است که به تدریج α کاهش یابد. به عنوان مثال:

$$ \alpha = \frac{cost 1}{iteration Number + cost 2} $$

با این حال، این کار اغلب انجام نمی شود زیرا افراد نمی‌خواهند با پارامترهای بیشتری دست و پنجه نرم کنند.