Artificial Intelligence - هوش مصنوعی - نمايش پست تنها - آموزشِ شبکه‌ی عصبی به روشِ یادگیریِ تقویت

dan1366 · ۰۴-۲۱-۱۳۹۲, ۰۱:۰۰ بعد از ظهر

با سلام دوست عزیز
من منظور شما رو از آموزش شبکه های عصبی با استفاده از یادگیری تقویتی رو خوب متوجه نشدم!!!
ولی تا اونجایی که من میدونم در یادگیری تقویتی دو روش برای حل مسئله وجود داره 1- جدول ارجاع یا
Look-up Table و 2- تقریب با استفاده از شبکه های عصبی هستش Recurrent Neural Network.
که اولی برای حل مسائل کوچک استفاده میشه که همون جدول Q جدول ارجاع ما هست و دومی که برای مسائل خیلی بزرگ استفاده میشه.
که شبه کد اون برای محبوبترین الگوریتم یادگیری تقویتی (Q_Learning) به شکل زیر هست:

1.Initialize the neural network.
2.Initial cart and pole.
3. Get current state.
4. Obtain for each action by substituting current state and action into the neural network.
5.Determine a action according to equation : .
(action= { left, right} )
6.Push cart and get current state.
7.if fail, reinforcement = -1 and reset cart. Else reinforcement = 0.
8.Generate according to equation :
(5.2)
use to train the network as Fig9. shown.
8.Repeat 3-7, until the agent learns it.

۰۴-۲۱-۱۳۹۲, ۰۱:۰۰ بعد از ظهر	#2 (لینک دائم)
dan1366 عضو فوق فعال تاريخ عضويت: ارديبهشت ۱۳۹۲ پست ها: 22 تشكرها: 1 6 تشكر در 5 پست	با سلام دوست عزیز من منظور شما رو از آموزش شبکه های عصبی با استفاده از یادگیری تقویتی رو خوب متوجه نشدم!!! ولی تا اونجایی که من میدونم در یادگیری تقویتی دو روش برای حل مسئله وجود داره 1- جدول ارجاع یا Look-up Table و 2- تقریب با استفاده از شبکه های عصبی هستش Recurrent Neural Network. که اولی برای حل مسائل کوچک استفاده میشه که همون جدول Q جدول ارجاع ما هست و دومی که برای مسائل خیلی بزرگ استفاده میشه. که شبه کد اون برای محبوبترین الگوریتم یادگیری تقویتی (Q_Learning) به شکل زیر هست: 1.Initialize the neural network. 2.Initial cart and pole. 3. Get current state. 4. Obtain for each action by substituting current state and action into the neural network. 5.Determine a action according to equation : . (action= { left, right} ) 6.Push cart and get current state. 7.if fail, reinforcement = -1 and reset cart. Else reinforcement = 0. 8.Generate according to equation : (5.2) use to train the network as Fig9. shown. 8.Repeat 3-7, until the agent learns it.