Artificial Intelligence - هوش مصنوعی - يادگيري تقويتي و كاربرد آن در بازي تخته نرد

يادگيري تقويتي و كاربرد آن در بازي تخته نرد

خلاصه مقاله:

دراين مقاله يكي از انواع يادگيري ماشين با نام يادگيري تقويتي معرفي شده كاربرد آن در بازي تخته نرد ارايه مي شود. دراين نوع از يادگيري عامل از طريق تعامل با محيط و مشاهده ي نتايج اقداماتش كه بصورت مجازات يا پاداش است از محيط دريافت مي كند سپس عامل ياد مي گيرد چگونه رفتار كند تا پاداش دريافتي اش در طول زمان بيشينه شود در بازيهاي تصادفي راهبردها براي بازيكنان در بازي يكسان نيست. به همين دليل در مسائلي از قبيل اقتصاد و بازار سهام مورد كاربرد قرار ميگيرند. اين مقاله نحوه ي بكارگيري دو الگوريتم به نامهاي يادگيري تفاوت زماني و نوع گسترش يافته ي آن يعني يادگيري كيو را در يكي از مشهورترين بازيهاي تصادفي بيان مي كند

كلمات كليدي:

هوش مصنوعي، يادگيري ماشين، يادگيري تقويتي، يادگيري تي دي، يادگيري كيو، شبكه هاي عصبي مصنوعي