دورهمی ۴۳ کرمهای کامپیوتر که ۷ دی ۱۴۰۳ با ارائهی شهراد حکمتیفرید در مورد یادگیری تقویتی (Reinforced Learning) برگزار شد. دوست تازه واردمون (که چند روز از ورودش به جمعمون نمیگذشت!) درمورد روش Q learning که یکی از روش های یادگیری تقویتی هست ارائه داد. توی این ارائه سناریوی ماهنشین رو به نمایش گذاشت.
یادگیری تقویتی (Reinforced Learning) چیه؟
یهروش یادگیری ماشین که برنامه از طریق آزمونوخطا و همچنین دریافت تشویق و اخطار، وظایف مختلفی رو یاد میگیره. این تکنیک مثل بسیاری از تکنیکهای دیگه، از دنیای واقعی الهام گرفته شده. درست مثل اهلیکردن یک حیوان، بابت تصمیمات مناسب، تشویق و برای تصمیمات نادرست، تنبیه درنظر گرفته میشه.
آنچه که گذشت
درآغاز این دورهمی، شهرداد عزیز کد نوشتهشده در یک فایل Jupyter Notebook (در انتهای این پست ضمیمه شده) رو توضیح داد و بعد بهچهگونگی تنظیم پارامترهای مختلف الگوریتم پرداخت. مسئله موردبررسی، ماهنشین بود که باید روی سطحی مناسب و مسطح فرود میاومد. این مسئله رو میتونید توی farama.org (http://farama.org/) پیدا کنید.
رای توضیح باید گفت که مدل، پیش از یادگیری، مهارت درستی نداشت و بههمیندلیل، سقوط میکرد. پساز انجام حدود ۳۰۰ اپیزود (منظور از اپیزود، دفعات شبیهسازی برای یادگیری هست)، شرط لازم برای اتمام شبیهسازی برقرار شد و مدل درنهایت بانتیجهای راضیکننده، مسئله رو حل کرد.
جلسه عالیای بود.
ممنون از حضورتون