مقدمه ای بر ارزیابی سیستم های توصیه گر
و اما پس از آشنایی کامل با انواع سیستم های توصیه گر و نحوه¬ی کار آن¬ها به موضوع اصلی یعنی ارزیابی سیستم های توصیه گر خواهیم پرداخت. می دانیم که سیستم های توصیه گر فعلی یک هدف اصلی و روشن را دنبال می نمایند و آن هدایت کاربر به اشیاء و آیتم های مفید، جالب و مورد علاقه ی وی است. بدین ترتیب جهت ارزیابی یک سیستم توصیه گر می¬توان ارزیابی این امر که چه مقدار از این هدف محقق شده است را مد نظر قرار داد.
اگر چه با این تعریف، این سیستم ها طی سالیان اخیر تکامل یافته و رو به رشد هستند ولی به سختی می توان در مورد معیارهای ارزیابی آن ها اظهار نظر کرد. از اولین سیستم های توصیه¬گر تا به امروز، اکثر ارزیابی های تجربی منتشر شده صرفا بر اندازه گیری میزان نزدیکی پیش بینی¬های سیستم توصیه گر با ترجیحات واقعی کاربر متمرکز شده است.
اگر چه به طور کلی، این اندازه گیری ها بر هدف کلی و عمومی سیستم های توصیه گر فوق که در ابتدا بیان شد مطابقت ندارد. علاوه بر این، برخی از معیارها سیستم های توصیه گر را مجبور به پیروی از سیاست های خاصی میکنند که امکانات آنها را محدود می نماید. در واقع، به جای پیگیری هدف مشترکی که برای هر سیستم توصیه گر ادعا می شود، در حال حاضر متأسفانه، یک سری اهداف مبهم و غیرقطعی وجود دارد که عملا توسط معیارهای متنوع فعلی به طور غیر رسمی عرضه می شود.
برای تشریح بیشتر این امر، در چند پاراگراف نقل قول برخی از محققان در این حوزه را خواهیم آورد]20[:
چالش اصلی، انتخاب یک متریک مناسب است که تنوع زیاد معیارهای منتشر شده جهت ارزیابی کمی دقت سیستم های توصیه گر را پوشش داده و همگی آنها را در بر گیرد. این فقدان استاندارد باعث لطمه زدن به پیشرفت دانش مربوط به سیستم توصیه گر مبتنی بر فیلترینگ تجمعی خواهد بود. بدون داشتن معیارهای استانداردی در این زمینه، محققان در زمان ارزیابی سیستمهای خود به معرفی معیارهای جدیدی خواهند پرداخت و بدین ترتیب با تنوع بسیار زیاد معیارهای ارزیابی در حال استفاده، مقایسه¬ی نتایج منتشر شده در یک نشریه با نتایج نشریه ای دیگر بسیار دشوار خواهد بود.
به همین دلیل، بسیار سخت خواهد بود که بتوان این نشریات متنوع را در یک مجموعه منسجم علمی در رابطه با کیفیت الگوریتم های سیستم توصیه گر تجمیع نمود. علاوه بر این، این معیارها محدودیت های خاصی دارند.
محققانی که می خواهند به مقایسه کمی دقت سیستم های توصیه گر مختلف بپردازند نخست باید یک یا چند معیار را انتخاب کنند. در انتخاب یک متریک، محققان با طیف وسیعی از سوالات روبرو هستند. آیا متریک مورد نظر، کارایی سیستم را نسبت به وظایف کاربر که برای آن طراحی شده بود اندازه گیری می نماید؟ آیا نتایج حاصل از انتخاب این متریک با سایر نتایج منتشر شده در سایر کارها در این زمینه قابل مقایسه است؟ آیا مفروضاتی که مبنای یک متریک قرار می گیرد،درست است؟ آیا متریک از حساسیت کافی برای تشخیص تفاوت های واقعی موجود برخوردار می باشد؟ چه مقدار تفاوت بین مقادیر حاصل شده از متریک برای ایجاد یک اختلاف آماری قابل توجه بایستی وجود داشته باشد؟ پاسخ کامل به این پرسش ها هنوز هم به طور کامل در مطبوعات منتشر شده ذکر نگردیده است.
با وجود این مشکلات ، ما نبایستی از هدف نهایی از هر متریک برای سیستم های توصیه گر چشم پوشی نماییم. یک متریک خوب باید ظرفیت محاسبه ی "رفتار خوب" یک سیستم های توصیه گر را دارا بوده و هر زمان که این سیستم ها در محیط های مشابهی (به عنوان مثال مجموعه داده ای از فعل و انفعالات کاربران) ظاهر گشتند، مقادیر مشابهی را تولید نماید.
علاوه بر این ، بایستی تعریف روشنی از معنی "رفتار خوب" ارائه نماییم. در هر صورت، آن باید با هدف واقعی از سیستم توصیه گر عمومی گفته شده که در ابتدا ذکر گردید مطابقت داشته باشد: هدایت کاربر به اشیاء و آیتم های مفید، جالب و مورد علاقه ی وی. لازم به ذکر است که دستیابی به این هدف مستلزم انجام دو وظیفه مختلف می باشد: (الف) تولید پیشنهاداتی که توسط کاربر مورد پذیرش واقع شود. (ب) فیلتر کردن آیتم های مفید و جالب. اولین وظیفه، با یک رفتار خارجی و تعاملی که هر توصیه گر به طور مستقیم به کاربر نشان می دهد به انجام می¬رسد. وظیفه دوم که مرتبط است با ''پیدا کردن آیتم های خوب'' ، با یک رفتار داخلی تر و تعاملی کمتر. با این حال، با وجود تعداد زیاد معیارهای منتشر شده تا به امروز، تعیین این دو وظیفه با هم، به عنوان یک هدف کلی، بر روی آنها بسیار دشوار است. علاوه بر این، جهت گیری یک تحقیق خاص ممکن است بیشتر بخش دوم از هدف را مد نظر قرار دهد، به گونه ای که اغلب هدف بخش اول در نظر گرفته نشود. در پایان این مباحث ما به سمت توسعه یک استاندارد جدید خواهیم رفت به گونه ای که هر دو این اهداف را با یکدیگر محقق سازد.
|