نمايش پست تنها
قديمي ۰۷-۲۳-۱۳۸۸, ۱۲:۰۱ بعد از ظهر   #1 (لینک دائم)
Astaraki Female
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Exclamation يادگيري تقويتي

یادگیری تقویتی

حیوانات ، انسان ها ، اتومات ها و .. از خود رفتار های مختلفی در محیطی که آن ها را احاطه کرده ، در شرایط مختلف ، از خود نشان می دهند.

آن ها کارهای مختلفی را به عنوان باز خورد در جواب ورودی هایی که از محیط می گیرند انجام می دهند. بعضی از این عامل ها رفتار های خود را در طول زمان عوض می کنند

آن ها ممکن است با دادن ورودی های یکسان ، عمل های متفاوتی نسبت به حرکت های قبلی خود انجام دهند. چنین عاملی یاد می گیرد. شاخه یادگیری ماشین به مطالعه الگوریتم های

یادگیری که مشخص می کند تغییر در ورودی ها چگونه در رفتار عامل تغییر ایجاد می کند می پردازد.

الگوریتم های یادگیری به 3 دسته تقسیم می شوند :

با ناظر

بی ناظر

تقویتی

در یادگیری با ناظر ، عامل با یک سری ورودی و خروجی مشخص آموزش داده می شود

در یادگیری بی ناظر ، عامل از محیط ، هیچ باز خوردی دریافت نمی کند. در مقابل عامل سعی می کند تا وردی ها را به صورت خوشه ها ، طبقه بندی ها یا ... بازسازی کند.

و اعمال خود را بر طبق این طبقه بندی ها و نتیجه گیری ها انجام دهد.

اما در یادگیری تقویتی ...

معرفی یادگیری تقویتی

برنامه نویسی پویا

اجزا یک سیستم یادگیری تقویتی

محیط

تابع پاداش

تابع مقدار

Q-Learning

معرفی

الگوریتم یادگیری

مثالی از یک عامل

مثالی از برج هانوی

اثبات همگرایی

یادگیری Q برای MDP غیرقطعی

روش های مونت کارلو در یادگیری تقویتی

ویژگیها

سیاست first visit MC

کنترل مونت کارلو

همگرایی مونت کارلو

on line policy و off line policy

منابع
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده اند:
aimaryam (۰۷-۱۷-۱۳۸۹), ramy_ai (۱۰-۳-۱۳۸۹), Sina.picasso (۰۵-۳۱-۱۳۹۰), ازهار (۱۲-۱۳-۱۳۹۰)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online