Artificial Intelligence - هوش مصنوعی - مسأله شبکه با روش مارکوف Value Iteration

درود بر دوستان

مسأله شبکه با روش مارکوف Value Iteration
http://s5.picofile.com/file/81096838...A9%D9%87_1.jpg
مساله شبکه همانطور که در شکل پیداست ، برای رسیدن به هدف می تواند به شمال و شرق و غرب حرکت کند و یک مانع یا دیوار در وسط دارد و در انتها یک خانه 1+ و 1- که برای پاداش شکست یا پیروزی هستند
ما میخواهیم احتمال رسیدن به هدف یعنی پاداش مثبت را در همه خانه ها بررسی کنیم

میخواهیم با روش Value Iteration تمام خانه های شبکه را پر کنیم
روش بدست آوردن v برای خانه (3و3) را در اسلاید آورده ام.
درشکل زیر در مرحله بعد (تکرار دوم) نیز ، v برای خانه (3و3) محاسبه شده است:
http://s5.picofile.com/file/8109680618/mdp.jpg

ما به دنبال روش بدست آوردن مقدار v در تکرار ها هستیم.
در یک منبع دیگر ، روش محاسبه مرحله دوم (تکرار دوم) نیز ذکر شده است و همچنین مقادیر تمام حالت ها در تکرار های بعدی نیز محاسبه شده است.
ولی برای تکرار سوم به بعد روش محاسبه v نیامده است.
اسلاید های این منبع را هم در ادامه آورده ام.
ولی سوالاتی پیش آمد که نتوانستم روش محاسبه در مراحل بعد را تشخیص دهم.
سوالات :
1) در محاسبه مرحله اول که حرکت به راست در نظر گرفته شده مقدار 0.8 در محاسبات آمده ، چرا ؟
2) در هر مرحله مقدار v کدام خانه ها در محاسبات موثر است ؟
3) نویز چه تأثیری در محاسبات مراحل اول تا پایان دارد ؟
4) آیا گاما و نویز در تکرار های بعدی نیز ثابت هستند؟ یا تغییر می کنند ؟ اگر تغییر می کنند ، چگونه و بر چه اساسی تغییر می کنند ؟

اسلاید های حل شده از منبعی که گفتم در زیر قابل دانلود می باشد.
دانلود اسلاید مساله شبکه