reg tree
به دلایل زیر کار بامدل درختی پیشنهاد می شود : 1- این مدل به طور مستقیم با متغیر های پیش بینی کننده مرتبط می باشد بنابراین نتایج مدل برای فهمیدن و شبیه سازی آسان هستند .
2- درخت های تصمیم گیری غیر پارامتریک بوده و هیچ دخالتی از سوی کاربر بر روی آنها صورت نمی گیرد .
3- خروجی مدل از دقت بالای برخوردار است که می توان آن را با سایر مدل ها مقایسه کرد .
درخت تصمیم چیست ؟
یک درخت معمولا از ریشه (root) ، شاخه (beach) ، گره ها (nods) ، برگها (leaf) تشکیل شده است درخت تصمیم هم به طور مشابه از گره ها که با دایره نشان داده می شوند و شاخه ها که نشان دهنده اتصال بین گره ها می باشند ، تشکیل شده است . درخت تصمیم به منظور سادگی در رسم معمولا از چپ به راست و یا از بالا به پایین کشیده می شود به طوری که ریشه (گره اول را ریشه می گویند) در بالا قرار گیرد . انتهای یک زنجیره ریشه ، شاخه، گره را یک برگ می نامند . از هر یک از گره های داخلی (یعنی گره ای که برگ نباشد) دو یا چند شاخه دیگر می توانند منشعب شوند . هر گره مربوط به یک خصوصیت معین است وشاخه ها به معنای بازه ای از مقادیر هستند ، این بازه های مقادیر ، باید بخش های مختلف مجموعه مقادیر معلوم را برای خصوصیت ها به دست دهند . عمل انشعاب توسط یکی از متغیرهای پیش بینی کننده انجام می پذیرد ، بازه های انشعاب طوری انتخاب می شوند که مجموع مجذور انحراف از میانگین داده های هر گره را حداقل کنند .
هنگامي كه خروجي يك درخت، يك مجموعه گسسته از يك مجموعه مقادير ممكن است؛ به آن طبقه بندی درختی گفته مي شود (مثلا مونث یا مذکر،برنده یا بازنده) هنگامي كه بتوان خروجي درخت را يك عدد حقيقي در نظر گرفت آن را، رگرسیون درختی مي نامند ویا به عبارت دیگر اگر متغیر های ما عددی (numerical) باشند از رگرسیون درختی (regression tree) واگر مطلق و قیاسی باشند از طبقه بندی درختی(classification tree) استفاده می کنیم . فرایند انشعاب در هر گره بارها تکرار می شود تا به گره پایانی یا همان برگ برسد که در برگ مجموع مجذور انحراف از میانگین داده ها حدودا به صفر می رسد ، با این کار درخت بزرگی توسعه پیدا خواهد کرد . فرآیند تشکیل دادن رگرسیون درختی شامل 5 مرحله است .
1)- مرحله مقدار دهی اولیه (initialization) : در این مرحله متغیر های پیش بینی کننده انتخاب شده و فرایند پیش پردازی داده ها انجام می گیرد .
2)- ساختن درخت (tree building) : این مرحله با تقسیم شدن گره والد به دو گره فرزند شروع می شود ، در هر گره والد تمام موضوعات و انشعابات ممکن ارزیابی می شود و سر انجام بهترین انشعاب انتخاب می شود
بهترین انشعاب انشعابی است که بیشترین مقدار را داشته باشد . با تکرار پروسه بالا برای هر انشعاب درخت بزرگی شکل می گیرد که به درخت حداکثر (maximal tree ) معروف است که شاخه ها و گره های زیادی دارد و کار با آن سخت می باشد بنابراین برای رسیدن به یک درخت بهینه و کار آمد باید شاخه های اضافی را هرس کرد .
3)- هرس کردن درخت (tree pruning) : دو روش حرص وجود دارد 1- هرس قبل از شکل گیری درخت حداکثر (pre-pruning) 2- هرس بعد از شکل گیری درخت حداکثر (past-pruning)
در روش اول فرایند هرس اجازه نمی دهد شاخه های اضافی تولید شوند ولی در روش دوم ابتدا درخت حداکثر تشکیل می شود و سپس فرآیند هرس انجام می گیرد . در این طرح از یکی از تکنیک های روش دوم به نام هزینه پیچیدگی هرس (cost complexity pruning ) استفاده می شود( بریمان و همکاران 1984).
4)- انتخاب درخت بهینه (optimal tree selection) : درخت بهینه بر اساس حداقل کردن خطای پیش بینی انتخاب می شود که دو روش برای محاسبه خطای پیش بینی وجود دارد 1- آزمون دستگاه مستقل 2- آزمون صحت سنجی که روش اول هنگامی مورد استفاده قرار می گیرد که تعداد داده های زیادی داشته باشیم در غیر آین صورت از روش دوم استفاده می شود .
ويرايش شده توسط arsalan_4421; ۰۳-۱۶-۱۳۸۹ در ساعت ۰۳:۰۷ بعد از ظهر
|