شناسايي نقاط دورافتاده با استفاده از تقويت درخت هاي رگرسيوني
چکيده:
در اين مقاله روشي براي شناسايي نقاط دورافتاده در مسائل رگرسيوني پيشنهاد شده است. اين روش بر اساس اطلاعاتي است كه با تقويت درخت هاي رگرسيوني به دست مي آيد. ايده ي اصلي اين است كه مشاهده اي را كه بيش از همه در بازنمونه گيري هاي روش تقويت (boosting) ظاهر مي شود، انتخاب و حذف كنيم و سپس اين كار را تكرار كنيم. معيار اين انتخاب، بر اساس نابرابري چبيشوف است كه در مورد ماكسيمم تعداد تكرارهاي تقويت در متوسط تعداد ظهور در نمونه هاي خودگردان ساز (bootstrap) به كار گرفته مي شود. از اين رو، اين روش، بستگي به توزيع نوفه ندارد. اين روش، امكان انتخاب نقاط دورافتاده را كه پيش بيني مشاهدات آن ها بسيار سخت است، فراهم مي سازد. براي نشان دادن ارزش اين روش، مجموعه داده هاي مشهور زيادي در نظر گرفته شده اند و مقايسه اي بين روش پيشنهادي و دو روش رايج صورت گرفته است.
کليدواژگان:
تقويت ، CART ، نقاط دورافتاده رگرسيون
|