نمايش پست تنها
قديمي ۰۳-۱۴-۱۳۹۲, ۰۶:۴۶ بعد از ظهر   #9 (لینک دائم)
dan1366 Male
عضو فوق فعال
 
آواتار dan1366
 
تاريخ عضويت: ارديبهشت ۱۳۹۲
پست ها: 22
تشكرها: 1
6 تشكر در 5 پست
پيش فرض

ضمناً این برنامه الگوریتم های یادگیری تقویتی رو در برنامه ریزی تولید برای ماشین منفرد پیاده سازی میکنه، و هدف کمینه سازی حداکثر تاخیر برای عامل می باشد.
و در اینجا سه تا قانون برای عامل وجود دارد FIFO، SPT و EDD هستند، که بهترین قانون برای هدف موردنظر ما یعنی کمینه سازی حداکثر تاخیر قانون EDD می باشد ولی عامل ماشین منفرد هیچگونه دانشی نسبت به اینکه کدامیک از این عاملها بهترین هستند رو نداره و ما با استفاده از پارامترهایی که در بالا گفتم باید از بین این سه قانون که به عامل داده ایم، عامل ماشین منفرد بهترین قانون یعنی همون EDD رو مشخص میکنه برامون.
و من درستی این مسئله که در مقاله خارجی اومده بود اثبات کردم ضمن اینکه در مقاله خودم با الگوریتم SARSA که بهتر از Q_Learning عمل میکنه مقایسه کردم.
dan1366 آفلاين است   پاسخ با نقل قول