یادگیری تقویتی
حیوانات ، انسان ها ، اتومات ها و .. از خود رفتار های مختلفی در محیطی که آن ها را احاطه کرده ، در شرایط مختلف ، از خود نشان می دهند.
آن ها کارهای مختلفی را به عنوان باز خورد در جواب ورودی هایی که از محیط می گیرند انجام می دهند. بعضی از این عامل ها رفتار های خود را در طول زمان عوض می کنند
آن ها ممکن است با دادن ورودی های یکسان ، عمل های متفاوتی نسبت به حرکت های قبلی خود انجام دهند. چنین عاملی یاد می گیرد. شاخه یادگیری ماشین به مطالعه الگوریتم های
یادگیری که مشخص می کند تغییر در ورودی ها چگونه در رفتار عامل تغییر ایجاد می کند می پردازد.
الگوریتم های یادگیری به 3 دسته تقسیم می شوند :
با ناظر
بی ناظر
تقویتی
در یادگیری با ناظر ، عامل با یک سری ورودی و خروجی مشخص آموزش داده می شود
در یادگیری بی ناظر ، عامل از محیط ، هیچ باز خوردی دریافت نمی کند. در مقابل عامل سعی می کند تا وردی ها را به صورت خوشه ها ، طبقه بندی ها یا ... بازسازی کند.
و اعمال خود را بر طبق این طبقه بندی ها و نتیجه گیری ها انجام دهد.
اما در یادگیری تقویتی ...
معرفی یادگیری تقویتی
برنامه نویسی پویا
اجزا یک سیستم یادگیری تقویتی
محیط
تابع پاداش
تابع مقدار
Q-Learning
معرفی
الگوریتم یادگیری
مثالی از یک عامل
مثالی از برج هانوی
اثبات همگرایی
یادگیری Q برای MDP غیرقطعی
روش های مونت کارلو در یادگیری تقویتی
ویژگیها
سیاست first visit MC
کنترل مونت کارلو
همگرایی مونت کارلو
on line policy و off line policy
منابع