ضمناً این برنامه الگوریتم های یادگیری تقویتی رو در برنامه ریزی تولید برای ماشین منفرد پیاده سازی میکنه، و هدف کمینه سازی حداکثر تاخیر برای عامل می باشد.
و در اینجا سه تا قانون برای عامل وجود دارد FIFO، SPT و EDD هستند، که بهترین قانون برای هدف موردنظر ما یعنی کمینه سازی حداکثر تاخیر قانون EDD می باشد ولی عامل ماشین منفرد هیچگونه دانشی نسبت به اینکه کدامیک از این عاملها بهترین هستند رو نداره و ما با استفاده از پارامترهایی که در بالا گفتم باید از بین این سه قانون که به عامل داده ایم، عامل ماشین منفرد بهترین قانون یعنی همون EDD رو مشخص میکنه برامون.
و من درستی این مسئله که در مقاله خارجی اومده بود اثبات کردم ضمن اینکه در مقاله خودم با الگوریتم SARSA که بهتر از Q_Learning عمل میکنه مقایسه کردم.
|