[CENTER]
A Fuzzy based method to solve
the problem of clustering boundary data points
without using initial training data
حل مشکل کلاسترینگ داده های مرزی
بدون استفاده از دادههای اولیه آزمایشی
با استفاده از فازی سازی و ایجاد همپوشانی در لبه های مرزی
(نگارش 2.0)
تحت نظر:
دکتر محمد کاظم اکبری
توسط: مرتضی سرگلزایی جوان
تابستان 1389
گزارش فنی: دانشکده مهندسی کامپیوتر و فناوری اطلاعات/ گزارش فنی- موردی/ 1389/ 01
مقدمه:
دسته بندی اعداد و طبقه بندی آنها از جمله محاسباتی است که در حوزه های مختلف مورد استفاده قرار می گیرد. این قبیل محاسبات اغلب به این شکل است که ما نیاز به دسته بندی اعداد در مجموعه هایی مشابه داریم بطوریکه هر دسته بیشترین مشابهت را با همدیگر داشته باشند و اعضای دو مجموعه مختلف، بیشتری اختلاف را با هم داشته باشند.
روش های مختلفی برای دسته بندی اعداد وجود دارد. از جمله آنها می توان به کلاسترینگ (خوشه بندی) اشاره کرد. در این روش ما نیاز به داده های اولیه داریم که بتوانیم آنها را با توجه به مشخصه های مشترکی که دارند دسته بندی کنیم. سپس هر داده جدیدی که وارد شود، می تواند در یکی از دسته بندی های موجود قرار بگیرد، یا اینکه دسته جدیدی ایجاد کند و یا حتی دسته بندی های موجود را تغییر دهد. روش دیگری که برای دسته بندی می تواند مورد استفاده قرار بگیرد طبقه بندی نام دارد. در این روش ما دسته بندی های مورد نظر را مشخص می کنیم و سپس داده ها را در آن دسته های مشخص قرار می دهیم. در این روش مرز دسته ها از قبل بطور کامل مشخص می شود و هر داده تنها در یکی از دسته های مشخص شده قرار خواهد گرفت. بنابراین شرط اولیه استفاده از روش کلاسترینگ، وجود داده های اولیه و شرط اولیه استفاده از روش طبقه بندی، وجود دسته های اولیه است.
حال ممکن است مواردی وجود داشته باشد که ما دادههای اولیه در اختیار نداشته باشیم، دسته بندیهای اولیه نیز برای ما تقریبا مشخص باشد و بخواهیم دو داده مختلف را دسته بندی کنیم. به این ترتیب چنانچه در شروع کار از روش کلاسترینگ استفاده کنیم، داده اولیه در اختیار نخواهیم داشت و چنان بخواهیم از دسته بندی استفاده کنیم، برای داده های مرزی که شبیه به هم باشند، با مشکل مواجه خواهیم شد چرا که ممکن است که مثلا دو داده شبیه به هم که در مرز دو دسته قرار دارند در دو دسته مختلف قرار گیرند. در چنین حالاتی همانطور که در این گزارش نشان داده خواهد شد، می توان در یک مرحله دسته بندی هایی را بطور تقریبی و پیش فرض مشخص نمود. اما مشکل این روش در انتخاب داده های موجود در لبه های مرزی دو دسته مجاور است که اگر چه ممکن است دو عدد بسیار به هم نزدیک باشند، ولی در دو دسته مختلف قرار گیرند که برای حل این مشکل از تکنیک فازی برای ایجاد همپوشانی در لبه های مرزی استفاده شده است و سپس میتوان از کلاسترینگ برای دسته بندی اعداد واقع در نقاط همپوشانی استفاده نمود. به عبارت دیگر ما در مرحله اول یک دسته بندی اولیه انجام می دهیم تا ضمن همپوشانی لبه ها، مشکل وجود داده های اولیه نیز حل شود، سپس با استفاده از تابع عضویت فازی، میزان عضویت هر یک از داده های مرزی را به مجموعه های اطراف خود تعیین می کنیم. در نهایت با استفاده از کلاسترینگ، دسته بندی نهایی اعداد ورودی را بصورت پویا و بدون نیاز به داده های اولیه انجام می دهیم.
لازم به ذکر است آنچه که ما از تکنیک فازی سازی در پیاده سازی خود استفاده کرده ایم، تنها استفاده از تابع عضویت برای مشخص کردن درصد عضویت هر یک از اعضای واقع در نقاط مرزی، به مجموعه های طرف خود می باشد که مقدار آن یکی از پارامترهای موثر در انجام خوشه بندی می باشد و کل فرآیند فازی در اینجا بکار گرفته نشده است. در ادامه ابتدا بطور مختصر برخی روش های کلاسترینگ را مورد بررسی قرار می دهیم. سپس به معرفی ایده فازی خواهیم پرداخت و در نهایت پیاده سازی انجام شده برای حل مسئله نقاط مرزی را مشاهده خواهیم کرد.
منبع: مقالات و مطالب علمی فن آوری اطلاعات - حل مشکل کلاسترینگ داده های مرزی بدون استفاده از دادههای اولیه آزمایشی