Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > یادگیری (Learning) > يادگيري تقويتي(Reinforcement Learning)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۴-۱۲-۱۳۸۹, ۱۰:۰۵ بعد از ظهر   #1 (لینک دائم)
Super Moderator
 
آواتار alijy
 
تاريخ عضويت: خرداد ۱۳۸۹
محل سكونت: ارض الله الواسعة
پست ها: 78
تشكرها: 23
250 تشكر در 77 پست
My Mood: Khonsard
پيش فرض

سلام
من روش مونت کارلو رو خیلی یادم نمیاد، ولی الان که توضیحات انگلیسی مسئله رو خوندم به نظرم میاد که با توضیحاتی که شما توی چند تا پستتون دادید خیلی فرق میکنه. بعنوان نمونه صورت مسئله کاملا واضح توضیح میده که هر حرکت از 2 بخش حرکت افقی و حرکت عمودی تشکیل شده و غیر از محدودیت تعداد خونه هایی که میشه به هر سمت حرکت کرد و محدودیت مجموع دو بخش حرکت، هیچ محدودیتی روی جهت حرکت وجود نداره. تنها یه محدودیت اضافه برای مشکل تر کردن مسئله اضافه شده و اونم این پیش فرض هست که در 50% مواقع ماشین یک خونه اضافه تر (از محدودیت ذکر شده در مسئله) به جلو یا راست حرکت میکنه. این یعنی اینکه مثلا اگر در یه زمان انتخاب حرکت بصورت 4 خانه به جلو و 2 خانه به چپ باشه، اگر این حرکت رو جزء اون 50% حساب کنیم میتونه یه خانه اضافه مثلا به جلو حرکت کنه، ولو اینکه با این اقدام تعداد خانه های حرکت به جلو به 5 میرسه که پیش فرض اولیه مسئله رو (که تعداد حرکت در هر جهت کمتر از 5 تا خانه هست) رو نقض میکنه. به نظرم خوبه صورت مسئله رو با دقت بیشتری بررسی کنید. با فهم دقیق مسئله ایشالا راه حل مناسبش رو هم میتونید پیدا کنید.
alijy آفلاين است   پاسخ با نقل قول
از alijy تشكر كرده اند:
aimaryam (۰۷-۱۷-۱۳۸۹), Astaraki (۰۴-۱۲-۱۳۸۹)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
قديمي ۰۴-۱۲-۱۳۸۹, ۱۰:۱۳ بعد از ظهر   #2 (لینک دائم)
عضو جدید
 
آواتار salar_cpp_cs
 
تاريخ عضويت: دي ۱۳۸۸
پست ها: 8
تشكرها: 3
1 تشكر در 1 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله alijy نمايش پست
سلام
من روش مونت کارلو رو خیلی یادم نمیاد، ولی الان که توضیحات انگلیسی مسئله رو خوندم به نظرم میاد که با توضیحاتی که شما توی چند تا پستتون دادید خیلی فرق میکنه. بعنوان نمونه صورت مسئله کاملا واضح توضیح میده که هر حرکت از 2 بخش حرکت افقی و حرکت عمودی تشکیل شده و غیر از محدودیت تعداد خونه هایی که میشه به هر سمت حرکت کرد و محدودیت مجموع دو بخش حرکت، هیچ محدودیتی روی جهت حرکت وجود نداره. تنها یه محدودیت اضافه برای مشکل تر کردن مسئله اضافه شده و اونم این پیش فرض هست که در 50% مواقع ماشین یک خونه اضافه تر (از محدودیت ذکر شده در مسئله) به جلو یا راست حرکت میکنه. این یعنی اینکه مثلا اگر در یه زمان انتخاب حرکت بصورت 4 خانه به جلو و 2 خانه به چپ باشه، اگر این حرکت رو جزء اون 50% حساب کنیم میتونه یه خانه اضافه مثلا به جلو حرکت کنه، ولو اینکه با این اقدام تعداد خانه های حرکت به جلو به 5 میرسه که پیش فرض اولیه مسئله رو (که تعداد حرکت در هر جهت کمتر از 5 تا خانه هست) رو نقض میکنه. به نظرم خوبه صورت مسئله رو با دقت بیشتری بررسی کنید. با فهم دقیق مسئله ایشالا راه حل مناسبش رو هم میتونید پیدا کنید.

دوست عزیز ، مشکل همینجاست که اصلا صورت مساله خودش مبهمه ، حالا شما هیچ

روشی رو واسه حل مساله در نظر ندارید ؟
salar_cpp_cs آفلاين است   پاسخ با نقل قول
قديمي ۰۴-۱۲-۱۳۸۹, ۱۱:۲۷ بعد از ظهر   #3 (لینک دائم)
Super Moderator
 
آواتار alijy
 
تاريخ عضويت: خرداد ۱۳۸۹
محل سكونت: ارض الله الواسعة
پست ها: 78
تشكرها: 23
250 تشكر در 77 پست
My Mood: Khonsard
پيش فرض

راستش صورت مسئله خیلی هم مبهم نیست. در واقع تنها نکته مبهم صورت مسئله برای من اینه که اگر ماشین در حرکتی بخواد از grid خارج بشه - که حرکت قابل قبولی نیست - دقیقا چه حرکتی بجاش انجام میشه، که اینم با توجه صورت مسئله اینطور میشه برداشت کرد که دقیقا یک حرکت یک خانه ای به یکی از 4 جهت (در صورت قابل قبول بودن) انجام میشه (البته مسئله میگه حداقل یک خانه که برای من مبهمه).
به هر حال یه راه حل برای این مسئله میتونه reinforcement learning باشه. به این صورت که برای هر کدوم از نقاط شروع مختلف، برنامه حرکت رو چندین مرتبه (100 بار، 1000 بار، 10000 بار) اجرا کنید. در هر بار اجرای برنامه، در هر مرحله بصورت random و با در نظر گرفتن تمام محدودیت های گفته شده حرکت بعدی انتخاب میشه. اگر حرکت انتخاب شده حرکت قابل قبولی باشه، اون حرکت رو بهمراه خانه ای (cell) که ماشین در اون لحظه در اون قرار داره ذخیره میکنید. هر کدوم از این رکورد ها یک example محسوب میشه. با اجرای برنامه به دفعات زیاد برای هر خونه چندین example تولید میشه. در نهایت چند راه برای جمع بندی این example ها دارید. ساده ترین اونها اینه که برای هر خانه اون حرکتی رو که بیشتر از همه تولید و استفاده شده، انتخاب کنید.
به این روش learning from positive examples میگن که در اون agent از حرکتهای صحیح و قابل قبول قبلی برای یادگیری استفاده میکنه. البته reinforcement learning بخش استفاده از negative examples هم داره که در راه حلهای کاملتر میشه اون رو هم اضافه کرد و برای افزایش optimality بکار برد.

ويرايش شده توسط alijy; ۰۴-۱۳-۱۳۸۹ در ساعت ۰۲:۵۸ قبل از ظهر دليل: typo
alijy آفلاين است   پاسخ با نقل قول
از alijy تشكر كرده اند:
aimaryam (۰۷-۱۷-۱۳۸۹), Astaraki (۰۴-۱۲-۱۳۸۹)
پاسخ



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۳:۴۱ بعد از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design