نمايش پست تنها
قديمي ۰۹-۷-۱۳۸۸, ۱۰:۳۷ قبل از ظهر   #1 (لینک دائم)
Astaraki Female
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Wink نگاهي کوتاه به اصول ها و کاربردهاي داده کاوي!

داده کاوي؛ نگاهي کوتاه به اصول ها و کاربردها: آنچه در زير پنهان است



ضرورت
از سال 1950 رايانه­ها در تحليل و ذخيره­سازي داده­ها به کار گرفته شدند. پس از حدود 20 سال حجم داده­ها دو برابر شد و پس از آن تقريبا هر دو سال يک­بار همزمان با پيشرفت فناوري اطلاعات، حجم داده­ها هم به دو برابر افزايش يافت. اين پيشرفت آن قدر زياد بود که تعداد رکورد­هاي برخي از پايگاه داده­ها به چند صد ميليارد رسيد. پديده شبکه جهاني وب، استفاده گسترد ه از بارکد براي توليدات تجاري، به خدمت گرفتن کامپيوتر در کسب و کار، خدمات الکترونيکي دولتي و پيشرفت در وسايل جمع­آوري داد ه ، انفجاري را در مجموعه­هاي اطلاعاتي سازمان­ها و موسسات ايجاد کرد ه است. حجم زياد اطلاعات، مديران اين مجموعه ها را در تحليل و يافتن اطلاعات مفيد دچار چالش کرد ه است. داده­کاوي، ابزار مناسب را براي تجزيه و تحليل اطلاعات و کشف و استخراج روابط پنهان در مجموعه­هاي داده­اي سنگين فراهم مي­کند.


تعريف و اهداف
داده­کاوي، فرآيند کشف الگوهاي پنهان، جالب توجه، غير منتظره و با ارزش از داخل مجموعه وسيعي از داده­هاست و فعاليتي در ارتباط با تحليل دقيق داده­هاي سنگين بي­ساختار است که علم آمار ناتوان از تحليل آنهاست. بعضي مواقع دانش کشف شده توسط داده­کاوي عجيب به نظر مي­رسد؛ مثلا ارتباط افراد داراي کارت اعتباري و جنسيت با داشتن دفترچه تامين اجتماعي يا سن، جنسيت و درآمد اشخاص با پيش­بيني خوش­حسابي او در بازپرداخت اقساط وام. داده­کاوي از علو مي مانند يادگيري ماشين، هوش مصنوعي، آمار، پايگاه داده و شناسايي الگو به طور همزمان بهره گرفته و در حوزه­هاي تصميم­گيري، پيش­بيني، و تخمين مورد استفاده قرار مي­گيرد.

کشف دانش
واژه کشف دانش در پايگاه داده­ها (Knowledge Discovery in Database (KDD)I) در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. اين لغت به بيان ديگر به همه شيوه هايي اشاره دارد که هدف آنها پي بردن به ارتباط و نظم بين اطلاعات قابل مشاهد ه است. لغت KDD براي توصيف همه مراحل استخراج اطلاعات از پايگاه داده و نيز بيان اهداف کارهاي اوليه کاربرد قوانين تصميم گيري است. اين واژه به طور رسمي اولين بار توسط Usama Fayaad در اولين کنفرانس بين المللي داده کاوي و کشف دانش که در سال 1995 در مونترال برگزار شده بود، معرفي شد که به بيان ارتباط تکنيکهاي آناليز در چندين مرحله با هدف استخراج دانش هاي ناشناخته قبلي از داده هاي در دسترس مي پرداخت. داده هايي که ارتباط منظم و پراهميت آنها قبلاً به نظر نمي رسيد. کم کم واژه داده کاوي جاي خود را پيدا کرد و مترادفي براي همه مراحل استخراج دانش شد. هر چند که داده کاوي مرحله اي از KDD است، اما در کل KDD فرآيند يافتن اطلاعات و الگوهاي مفيد از داده را گويند و داده کاوي بهره گيري از الگوريتم هايي براي يافتن اطلاعات مفيد در فرآيند KDD است.

فرآيند KDD عبارت است از:
1. پاک­سازي و يکپارچه­سازي داده (پيش­پردازش داده)

2. ايجاد يک انبار داده1 مشترک براي تمام منابع

3. داده­کاوي

4. بصري­سازي2 نتايج توليد شده

که مرحله پيش پردازش غالباً يکي از مراحل زمان بر و در عين حال بسيار مهم در کسب نتيجه مطلوب است.

در تعاريف قبلي جنبه بسيار مهمي که همان هدف نهايي داده­کاوي است حذف شد ه است. هدف نهايي داده­کاوي به دست آوردن نتايجي است که مي تواند منافع کاري داشته باشد.

داده­كاوي كاربرد سطح بالاي فنون و ابزار به كار برده شده براي معرفي و تحليل داده­هاي تصميم­گيرندگان است. اصطلاح داده­کاوي را متخصصين آمار، تحليلگران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار برده­اند در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي بيشتر از KDD استفاده مي­کنند. از نقطه نظر محققان، داده­کاوي يک نظم نسبتاً جديد است که به طور عمد ه از ميان مطالعاتي که به منظور نظم بخشيدن به برخي از فعاليتها همچون تخمين زدن، بازاريابي و سرشماري و آمار انجام گرفته، توسعه يافته است. ايد ه اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و درنهايت قابل درک در داده هاست. کشف دانش در پايگاه داده ها براي کشف اطلاعات مفيد از مجموعه بزرگ داده هاست. دانش کشف شده مي تواند قاعد ه اي باشد که با کمک آن ويژگي هاي داده ها، الگوهايي که به طور متناسب رخ مي دهند، خوشه بندي موضوع هاي درون پايگاه داده ها و غيره را توصيف کند.

يک کاربر سيستم KDD به منظور انتخاب زير مجموعه صحيحي از داده ها بايد درک بالايي از قلمرو داده ها، رده مناسبي از الگوها و معيار خوبي براي الگوهاي جالب داشته باشد. بنابراين سيستم KDD بايد ابزارهايي با اثر تعاملي داشته باشد نه سيستم هاي تجزيه و تحليل خودکار.


پيشينه
پژوهش جدي روي موضوع داده­کاوي از اوايل دهه 90 شروع شد. پژوهش­ها و مطالعه هاي زيادي در اين زمينه صورت گرفته؛ همچنين سمينارها، دوره هاي آموزشي و کنفرانس هايي نيز برگزار شد ه است. نتايج پايه هاي نظري داده کاوي در تعدادي از مقاله هاي پژوهشي آورده شد ه است. سال 1995 با استفاد ه از داده کاوي، انباره­هاي داده بانک­هاي آمريکا را بررسي کرده و بيان کردند که چگونه اين سيستم­ها براي بانک­هاي آمريکا قدرت رقابت بيشتري ايجاد مي­کنند. در اين سال انجمن داده­کاوي همزمان با اولين کنفرانس بين المللي «کشف دانش و داده کاوي» شروع به کار و يک سازمان علمي به نام ACM- SIGKDD را تاسيس کرد. سال 1996 ديدگاهي از داده کاوي به عنوان «پرس و جو کنند ه از پايگاه هاي استنتاجي» پيشنهاد شد و فياض و شاپيرو پيشرفت­هاي کشف دانش و داده کاوي را اعلام کردند. همان سال ديدگا ه اقتصاد سنجي روي داده کاوي و عملکرد داده کاوي به عنوان يک مسأله بهينه ارائه و کنفرانس­هاي ناحيه­اي و بين المللي در مورد داده کاوي برگزار شد که از جمله مي توان به کنفرانس آسيا و اقيانوسيه درباره کشف دانش و داده کاوي اشاره کرد. سال 2000 بحث هاي مقايسه اي بين آمار و داده­کاوي و نيز استفاد ه از وب در کاوش داده­ها و کاربردهاي آن ارائه شد. سال 2002 «داده کاوي ساختارهاي پيوند براي مدل رفتار مصرف کننده» عرضه شد.



وظايف داده­کاوي
اهداف سطح بالاي داده­کاوي، پيش­بيني (Prediction)، توصيف (Description) يا ترکيبي از پيش­بيني و توصيف است. هدف پيش­بيني، تمرکز بر روي دقت در توانايي پيش بيني است. هدف توصيف، تمرکز بر روي درک فرآيند توليد داده­ها است. در پيش­بيني، تا زماني که مدل قدرت پيش بيني دارد، کاربر توجهي به اين که مدل انعکاس دهنده واقعيت است ندارد. مثلاً مدلي که شاخص­هاي مالي را به شکل غيرخطي ترکيب مي­کند تا نرخ تبادل ارز را پيش بيني کند.

از سويي ديگر، مدل توصيفي، به عنوان انعکاس واقعيت تفسير مي­شود. مثلاً مدلي که متغيرهاي اقتصادي و جمعيتي را به پيشرفت­هاي آموزشي مرتبط مي­کند، به عنوان مبنايي براي توصيه­هاي سياست اجتماعي استفاده مي­شود. در عمل، اغلب کاربردهاي اکتشاف دانش به درجه­اي از هردو مدل­سازي توصيفي و پيش­بيني نياز دارند.

مي­توان اکثر مسائل موجود را در قالب وظايف زير دسته بندي کرد:
1. رده­بندي (Classification) (يافتن مدلي براي پيش­بيني)

2. کشف قوانين انجمني/باهم­آيي (Mining Association Rule) (براي توصيف و پيش­بيني وضعيت آينده)

3. خوشه­بندي (Clustering) (براي توصيف داده­ها)

توضيح تک به تک موارد فوق و آوردن مثال مجال مفصل تري را مي­طلبد.


کاربردها
بعضي از کاربردهاي داده­کاوي را مي­توان در کاربردهاي معمول تجاري (مثل تحليل و مديريت بازار، تحليل سبد بازار، پيش­بيني قيمت نفت، بازاريابي هدف، فهم رفتار مشتري و تحليل و مديريت ريسک)، مديريت و کشف فريب (کشف فريب تلفني، کشف فريب­هاي بيمه­اي اتومبيل، کشف حقه­هاي کارت اعتباري، کشف تراکنش­هاي مشکوک مالي و پول­شويي)،متن کاوي (خلاصه­سازي، يافتن متون مشابه و کلمات کليدي، پالايش نامه­هاي الکترونيکي، گروه­هاي خبري و غيره)، پزشکي (کشف ارتباط علامت و بيماري، تحليل آرايه­هاي DNA، تصاوير پزشکي)، وب­کاوي (پيشنهاد صفحات مرتبط، بهبود ماشين هاي جستجوگر يا شخصي­سازي حرکت در وب سايت) و يافتن روندهاي فرهنگي سياسي در وب، تحليل شبکه­هاي اجتماعي وب 2 (وبلاگها، ويکي­ها)­، آنالير ترافيک وب، تشخيص نفوذي به شبکه، متن کاوي، بيوانفورماتيک، سيستم پيشنهاد دهنده براي آموزش مجازي و کاربردهاي بسيار ديگري در شاخه­هاي مختلف مهندسي دانست. البته داده­کاوي هر کاري را انجام نمي­دهد و هر کار آماري را داده­کاوي نمي­نامند. براي داده­کاوي شناخت و تحليل داده­ها مورد نياز است، به طوري­که بتوان روابط و الگوهاي بين داده­ها را با کمک افراد خبره پيدا کرد.


وضعيت فعلي در ايران
در کشور ما نيز با رشد روزافزون داده­ها در کارخانجات، شرکت­ها، فروشگاه­هاي زنجيره­اي و مراکز مختلف دولتي و خصوصي نياز به استفاد ه از دانش نهفته در آنها يعني انجام داده­کاوي روي داده­ها ضروري به نظر مي­رسد. داده­هاي مرکز آمار ايران، داروخانه­ها­، بيمارستانها، داده­هاي مرکز پليس­، مراکز قضايي، کارت سوخت، سازمان هواشناسي کشور، بانکها، بيمه و ... از جمله داده­هاي انبوه و بسيار ارزشمندي هستند که شايستگي داده­کاوي و تحليل قوانين پنهان را دارند. داده­کاوي مي­تواند با کشف الگوهاي پنهان در اصلاح روند تصميم­گيري مديران بسيار موثر باشد اما کشور ما به دليل عدم وجود فرهنگ به اشتراک­گذاري اطلاعات از دستاوردهاي اين فناوري محروم است.


پاورقي:

1)Data Warehouse

2)Visualization
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده اند:
aimaryam (۰۶-۱۸-۱۳۸۹), amin sma (۱۱-۱۵-۱۳۹۴), dasthayekhaly (۰۸-۲۸-۱۳۹۰), nazparva (۰۶-۲۰-۱۳۸۹), Sahebi (۱۰-۱۸-۱۳۸۸), shahak (۰۹-۲۴-۱۳۸۸)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online