نمايش پست تنها
قديمي ۱۰-۲۹-۱۳۸۷, ۰۳:۰۱ بعد از ظهر   #8 (لینک دائم)
moin_zeddot
عضو جدید
 
آواتار moin_zeddot
 
تاريخ عضويت: دي ۱۳۸۷
پست ها: 5
تشكرها: 1
0 تشكر در 0 پست
پيش فرض q - learning

سیاوش جان شرمنده انقدر سوال می پرسم.
یه سوال در مورد q learning داشتم.

ببینید وقتی می خوایم agent رو train کنیم، ابتدا با یه ماتریس صفر Q شروع می کنیم . و agent رندوم یه سری action انتخاب می کنه تا به هدف برسه. حالا ممکنه که اصلا به هدف نرسه اونوقت چی ؟ episode تموم می شه؟ تکلیف update شدن ماتریس Q چی می شه؟
لطفا کمک کنین...
__________________
من تو عقایدم با شما ها فرق دارم
واسه همینم هست که می گم سر دارم

می خوام ایجاد کنم من یه انقلاب
پس همه بگین zdot زنده باد
moin_zeddot آفلاين است   پاسخ با نقل قول