دورهمی 43 کرم‌های کامپیوتر

اشتراک‌گذاری

دورهمی ۴۳ کرم‌های کامپیوتر که ۷ دی ۱۴۰۳ با ارائه‌ی شهراد حکمتی‌فرید در مورد یادگیری تقویتی (Reinforced Learning) برگزار شد. دوست تازه واردمون (که چند روز از ورودش به جمع‌مون نمی‌گذشت!) درمورد روش Q learning که یکی از روش های یادگیری تقویتی هست ارائه داد. توی این ارائه سناریوی ماه‌نشین رو به نمایش گذاشت.

یادگیری تقویتی (Reinforced Learning) چیه؟

یه‌روش یادگیری ماشین که برنامه از طریق آزمون‌وخطا و همچنین دریافت تشویق و اخطار، وظایف مختلفی رو یاد می‌گیره. این تکنیک مثل بسیاری از تکنیک‌های دیگه، از دنیای واقعی الهام گرفته شده. درست مثل اهلی‌کردن یک حیوان، بابت تصمیمات مناسب، تشویق و برای تصمیمات نادرست، تنبیه درنظر گرفته می‌شه.

آنچه که گذشت

درآغاز این دورهمی، شهرداد عزیز کد نوشته‌شده در یک فایل Jupyter Notebook (در انتهای این پست ضمیمه شده) رو توضیح داد و بعد به‌چه‌گونگی تنظیم پارامترهای مختلف الگوریتم پرداخت. مسئله موردبررسی، ماه‌نشین بود که باید روی سطحی مناسب و مسطح فرود می‌اومد. این مسئله رو می‌تونید توی farama.org (http://farama.org/) پیدا کنید.

رای توضیح باید گفت که مدل، پیش از یادگیری، مهارت درستی نداشت و به‌همین‌دلیل، سقوط می‌کرد. پس‌از انجام حدود ۳۰۰ اپیزود (منظور از اپیزود، دفعات شبیه‌سازی برای یادگیری هست)، شرط لازم برای اتمام شبیه‌سازی برقرار شد و مدل درنهایت بانتیجه‌ای راضی‌کننده، مسئله رو حل کرد.

اشتراک‌گذاری

کرم‌های کامپیوتر

دورهمی 43 کرم‌های کامپیوتر

یادگیری تقویتی (Reinforced Learning) چیه؟

آنچه که گذشت

نوشته های مرتبط:

2 دیدگاه برای “دورهمی 43 کرم‌های کامپیوتر”

دیدگاهتان را بنویسید لغو پاسخ

بهنام سیم‌جو

فاروق کریمی‌زاده