سیاوش جان شرمنده انقدر سوال می پرسم.
یه سوال در مورد q learning داشتم.
ببینید وقتی می خوایم agent رو train کنیم، ابتدا با یه ماتریس صفر Q شروع می کنیم . و agent رندوم یه سری action انتخاب می کنه تا به هدف برسه. حالا ممکنه که اصلا به هدف نرسه اونوقت چی ؟ episode تموم می شه؟ تکلیف update شدن ماتریس Q چی می شه؟
لطفا کمک کنین...
__________________
من تو عقایدم با شما ها فرق دارم
واسه همینم هست که می گم سر دارم
می خوام ایجاد کنم من یه انقلاب
پس همه بگین zdot زنده باد