سلام به همه دوستان گرامی ، توی درس یادگیری ماشین یه پروژه گفته شده بنام Race Track
که مربوط میشه به بحث یادگیری تقویتی ، میخواستم ببینم دوستان میتونن در مورد الگوریتم
مساله راهنمایی کنند ؟
مساله از این قراره که یه ماشینی میخواد از یه خط شروعی به خط پایان برسه ، به ازای هر حرکت
درست امتیاز 1- میگیره و به ازای برخورد به دیوار امتیاز 5- میگیره ، حال ما میخوایم تعداد
امتیازهای منفی رو به حداقل برسونیم !