درخت تصميم C4.5
اساسا درخت هاي تصميم مثل ID3، C4.5، C5 براي اين ايجاد شدند كه از روي يك سري داده آماري، درختي ايجاد كنند كه براي داده هاي آماري مشابه بشه از اون درخت براي كلاسه بندي استفاده كرد.
مثلا يك سري داده اوليه (train) انتخاب مي كنيم و بر اساس يك الگوريتم مشخص درخت رو ايجاد مي كنيم. سپس با داده هاي تست درخت ايجاد شده رو ارزيابي مي كنيم، تا ببينيم چقدر كارا است. اين درخت، (در صورتيكه با الگوريتم مناسب و در ضمن با دارا بودن داده هاي train زياد ايجاد شده باشه) ساختار خيلي سريع و كارايي براي تصميم گيري روي كلاس يك داده جديد خواهد بود.
من تصميم ندارم C4.5 رو اينجا توضيح بدم، مي تونيد براي يادگيريش به لينك زير مراجعه كنيد. اما مي خواهم نحوه نصب C4.5 روي ubuntu رو ارائه كنم:
سايت محقق اصلي و مخترع اين روش:
كد:
http://www.rulequest.com/Personal
روش نصب برنامه:
1-فايل اصلي برنامه رو از اينجا دانلود كنيد:
كد:
http://www.rulequest.com/Personal/c4.5r8.tar.gz
2-روي يك كامپيوتر يا ماشن مجازي (كه خودم از VMWare استفاده كردم) ubuntu رو نصب كنيد. (اگر آخرين نسخه ubuntu هم نبود اشكالي نداره)
3-فايل رو unzip كنيد و فايل هاش رو به ubuntu منتقل كنيد. ن فولدر R8 رو به root/tmp منتقل كردم.
4-Terminal رو از منو هاي بالاي ubuntu ايجاد كنيد و پوشه جاري رو به /tmp/R8/source تغيير بدين.
5-type كنيد: make all
برنامه كامپايل ميشه و يك فايل اجرايي به نام C4.5 رو ميسازه. (فايل هاي ديگه اي رو هم ايجاد مي كنه كه ما فعلا باهاشون كاري نداريم)
6-كار تمام شده فقط كافيه داده هايtrain رو بهش بديم تا درخت تصميم رو بسازه.
داده هاي train رو در يك پوشه، با پسوند data قرار بدين (مثلا tmp/R8/Data/crx.data)
اين فيل بايد شامل feature هاي مختلف (جدا سازي با ويرگول) و نوع كلاس در انتهاي خط باشه (در فايل هاي نمونه اش ببينين)
ضمنا بايد مشخصاتي از اين فايل رو در فايلي با همون نام اما با پسوند names قرار بدين. (اگه به نمونه مراجعه كنين مي بينين كه توي اين فايل، در يك سطر بايد انواع كلاس ها را معرفي كنيد و در چندين سطر بايد نوع feature ها را كه معمولا continous هستند رو معرفي كنيد.
7-حالا اسم فايل رو به عنوان يك ورودي به برنامه C4.5 بدين و از درخت ايجاد شده لذت ببرين!
ابنجوري:
c4.5 -f /tmp/R8/Data/crx