نقش يادگيري تفاوت زماني تخليص شده با تقريب زننده هاي تابع براي كاهش زمان و هزينه هاي
نقش يادگيري تفاوت زماني تخليص شده با تقريب زننده هاي تابع براي كاهش زمان و هزينه هاي محاسباتي يادگيري تقويتي
چکيده:
تركيب الگوريتم يادگيري تقويتي با تقريب زننده هاي تابعي براي تعميم فضاي حالت اخيراً از توجه ويژه اي برخوردار شده و به صورت گسترده اي اين اعتقاد وجود دارد كه يكي از موارد تعيين كننده براي سنجش ميزان يادگيري تقويتي به قلمروهاي جالب عملي، است. اين مقاله تركيب دستورالعمل ، يك پياده سازي تقريبي مؤثر محاسباتي از روش هاي با ، يك تقريب گر تابع به ويژه مناسب براي يادگيري تقويتي درخور كارآيي محاسباتي آن و توانايي يادگيري پيوسته را مورد بررسي قرار مي دهد. اكثر مطالعات قبلي تركيب با الگوريتم هاي براساس كه معمولاً براي يادگيري بسيار آهسته تر صورت مي گيرد، يا با پياده سازي مرسوم كه بر اساس آثار صلاحيت است به همراه هزينه هاي محاسباتي بالا مورد بررسي قرار داده اند. مطالعه فعلي، سعي دارد علاوه بر معرفي كامل روش براي كاهش هزينه هاي محاسباتي، با تركيب و يادگيري سريع با كارآيي محاسباتي و توانمندي هاي تعميمي را بيان كند. نتايج تجربي ارائه شده، عملكرد موفقيت آميز الگوريتم يادگيري را كه با استفاده از دستورالعمل و در دو كار با فضاهاي حالت پيوسته پياده سازي شده اند، را نشان مي دهد.
کليدواژگان:
يادگيري تقويتي، يادگيري تفاوت زماني ، تفاوت زماني تخليص شده ، پاداش، تقريب، عامل هاي يادگير، بروزآوري
|