نمايش پست تنها
قديمي ۰۳-۴-۱۳۸۹, ۰۶:۵۸ بعد از ظهر   #1 (لینک دائم)
Astaraki Female
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Cool نقش يادگيري تفاوت زماني تخليص شده با تقريب زننده هاي تابع براي كاهش زمان و هزينه هاي

نقش يادگيري تفاوت زماني تخليص شده با تقريب زننده هاي تابع براي كاهش زمان و هزينه هاي محاسباتي يادگيري تقويتي

چکيده:
تركيب الگوريتم يادگيري تقويتي با تقريب زننده هاي تابعي براي تعميم فضاي حالت اخيراً از توجه ويژه اي برخوردار شده و به صورت گسترده اي اين اعتقاد وجود دارد كه يكي از موارد تعيين كننده براي سنجش ميزان يادگيري تقويتي به قلمروهاي جالب عملي، است. اين مقاله تركيب دستورالعمل ، يك پياده سازي تقريبي مؤثر محاسباتي از روش هاي با ، يك تقريب گر تابع به ويژه مناسب براي يادگيري تقويتي درخور كارآيي محاسباتي آن و توانايي يادگيري پيوسته را مورد بررسي قرار مي دهد. اكثر مطالعات قبلي تركيب با الگوريتم هاي براساس كه معمولاً براي يادگيري بسيار آهسته تر صورت مي گيرد، يا با پياده سازي مرسوم كه بر اساس آثار صلاحيت است به همراه هزينه هاي محاسباتي بالا مورد بررسي قرار داده اند. مطالعه فعلي، سعي دارد علاوه بر معرفي كامل روش براي كاهش هزينه هاي محاسباتي، با تركيب و يادگيري سريع با كارآيي محاسباتي و توانمندي هاي تعميمي را بيان كند. نتايج تجربي ارائه شده، عملكرد موفقيت آميز الگوريتم يادگيري را كه با استفاده از دستورالعمل و در دو كار با فضاهاي حالت پيوسته پياده سازي شده اند، را نشان مي دهد.



کليدواژگان:
يادگيري تقويتي، يادگيري تفاوت زماني ، تفاوت زماني تخليص شده ، پاداش، تقريب، عامل هاي يادگير، بروزآوري
فايل ضميمه
نوع فايل: pdf p0560201010041-IF8MF9.pdf (239.9 كيلو بايت, 120 نمايش)
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده است:
aimaryam (۰۷-۱۷-۱۳۸۹)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online