داده کاوي؛ نگاهي کوتاه به اصول ها و کاربردها: آنچه در زير پنهان است
ضرورت
از سال 1950 رايانهها در تحليل و ذخيرهسازي دادهها به کار گرفته شدند. پس از حدود 20 سال حجم دادهها دو برابر شد و پس از آن تقريبا هر دو سال يکبار همزمان با پيشرفت فناوري اطلاعات، حجم دادهها هم به دو برابر افزايش يافت. اين پيشرفت آن قدر زياد بود که تعداد رکوردهاي برخي از پايگاه دادهها به چند صد ميليارد رسيد. پديده شبکه جهاني وب، استفاده گسترد ه از بارکد براي توليدات تجاري، به خدمت گرفتن کامپيوتر در کسب و کار، خدمات الکترونيکي دولتي و پيشرفت در وسايل جمعآوري داد ه ، انفجاري را در مجموعههاي اطلاعاتي سازمانها و موسسات ايجاد کرد ه است. حجم زياد اطلاعات، مديران اين مجموعه ها را در تحليل و يافتن اطلاعات مفيد دچار چالش کرد ه است. دادهکاوي، ابزار مناسب را براي تجزيه و تحليل اطلاعات و کشف و استخراج روابط پنهان در مجموعههاي دادهاي سنگين فراهم ميکند.
تعريف و اهداف
دادهکاوي، فرآيند کشف الگوهاي پنهان، جالب توجه، غير منتظره و با ارزش از داخل مجموعه وسيعي از دادههاست و فعاليتي در ارتباط با تحليل دقيق دادههاي سنگين بيساختار است که علم آمار ناتوان از تحليل آنهاست. بعضي مواقع دانش کشف شده توسط دادهکاوي عجيب به نظر ميرسد؛ مثلا ارتباط افراد داراي کارت اعتباري و جنسيت با داشتن دفترچه تامين اجتماعي يا سن، جنسيت و درآمد اشخاص با پيشبيني خوشحسابي او در بازپرداخت اقساط وام. دادهکاوي از علو مي مانند يادگيري ماشين، هوش مصنوعي، آمار، پايگاه داده و شناسايي الگو به طور همزمان بهره گرفته و در حوزههاي تصميمگيري، پيشبيني، و تخمين مورد استفاده قرار ميگيرد.
کشف دانش
واژه کشف دانش در پايگاه دادهها (Knowledge Discovery in Database (KDD)I) در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. اين لغت به بيان ديگر به همه شيوه هايي اشاره دارد که هدف آنها پي بردن به ارتباط و نظم بين اطلاعات قابل مشاهد ه است. لغت KDD براي توصيف همه مراحل استخراج اطلاعات از پايگاه داده و نيز بيان اهداف کارهاي اوليه کاربرد قوانين تصميم گيري است. اين واژه به طور رسمي اولين بار توسط Usama Fayaad در اولين کنفرانس بين المللي داده کاوي و کشف دانش که در سال 1995 در مونترال برگزار شده بود، معرفي شد که به بيان ارتباط تکنيکهاي آناليز در چندين مرحله با هدف استخراج دانش هاي ناشناخته قبلي از داده هاي در دسترس مي پرداخت. داده هايي که ارتباط منظم و پراهميت آنها قبلاً به نظر نمي رسيد. کم کم واژه داده کاوي جاي خود را پيدا کرد و مترادفي براي همه مراحل استخراج دانش شد. هر چند که داده کاوي مرحله اي از KDD است، اما در کل KDD فرآيند يافتن اطلاعات و الگوهاي مفيد از داده را گويند و داده کاوي بهره گيري از الگوريتم هايي براي يافتن اطلاعات مفيد در فرآيند KDD است.
فرآيند KDD عبارت است از:
1. پاکسازي و يکپارچهسازي داده (پيشپردازش داده)
2. ايجاد يک انبار داده1 مشترک براي تمام منابع
3. دادهکاوي
4. بصريسازي2 نتايج توليد شده
که مرحله پيش پردازش غالباً يکي از مراحل زمان بر و در عين حال بسيار مهم در کسب نتيجه مطلوب است.
در تعاريف قبلي جنبه بسيار مهمي که همان هدف نهايي دادهکاوي است حذف شد ه است. هدف نهايي دادهکاوي به دست آوردن نتايجي است که مي تواند منافع کاري داشته باشد.
دادهكاوي كاربرد سطح بالاي فنون و ابزار به كار برده شده براي معرفي و تحليل دادههاي تصميمگيرندگان است. اصطلاح دادهکاوي را متخصصين آمار، تحليلگران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار بردهاند در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي بيشتر از KDD استفاده ميکنند. از نقطه نظر محققان، دادهکاوي يک نظم نسبتاً جديد است که به طور عمد ه از ميان مطالعاتي که به منظور نظم بخشيدن به برخي از فعاليتها همچون تخمين زدن، بازاريابي و سرشماري و آمار انجام گرفته، توسعه يافته است. ايد ه اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و درنهايت قابل درک در داده هاست. کشف دانش در پايگاه داده ها براي کشف اطلاعات مفيد از مجموعه بزرگ داده هاست. دانش کشف شده مي تواند قاعد ه اي باشد که با کمک آن ويژگي هاي داده ها، الگوهايي که به طور متناسب رخ مي دهند، خوشه بندي موضوع هاي درون پايگاه داده ها و غيره را توصيف کند.
يک کاربر سيستم KDD به منظور انتخاب زير مجموعه صحيحي از داده ها بايد درک بالايي از قلمرو داده ها، رده مناسبي از الگوها و معيار خوبي براي الگوهاي جالب داشته باشد. بنابراين سيستم KDD بايد ابزارهايي با اثر تعاملي داشته باشد نه سيستم هاي تجزيه و تحليل خودکار.
پيشينه
پژوهش جدي روي موضوع دادهکاوي از اوايل دهه 90 شروع شد. پژوهشها و مطالعه هاي زيادي در اين زمينه صورت گرفته؛ همچنين سمينارها، دوره هاي آموزشي و کنفرانس هايي نيز برگزار شد ه است. نتايج پايه هاي نظري داده کاوي در تعدادي از مقاله هاي پژوهشي آورده شد ه است. سال 1995 با استفاد ه از داده کاوي، انبارههاي داده بانکهاي آمريکا را بررسي کرده و بيان کردند که چگونه اين سيستمها براي بانکهاي آمريکا قدرت رقابت بيشتري ايجاد ميکنند. در اين سال انجمن دادهکاوي همزمان با اولين کنفرانس بين المللي «کشف دانش و داده کاوي» شروع به کار و يک سازمان علمي به نام ACM- SIGKDD را تاسيس کرد. سال 1996 ديدگاهي از داده کاوي به عنوان «پرس و جو کنند ه از پايگاه هاي استنتاجي» پيشنهاد شد و فياض و شاپيرو پيشرفتهاي کشف دانش و داده کاوي را اعلام کردند. همان سال ديدگا ه اقتصاد سنجي روي داده کاوي و عملکرد داده کاوي به عنوان يک مسأله بهينه ارائه و کنفرانسهاي ناحيهاي و بين المللي در مورد داده کاوي برگزار شد که از جمله مي توان به کنفرانس آسيا و اقيانوسيه درباره کشف دانش و داده کاوي اشاره کرد. سال 2000 بحث هاي مقايسه اي بين آمار و دادهکاوي و نيز استفاد ه از وب در کاوش دادهها و کاربردهاي آن ارائه شد. سال 2002 «داده کاوي ساختارهاي پيوند براي مدل رفتار مصرف کننده» عرضه شد.
وظايف دادهکاوي
اهداف سطح بالاي دادهکاوي، پيشبيني (Prediction)، توصيف (Description) يا ترکيبي از پيشبيني و توصيف است. هدف پيشبيني، تمرکز بر روي دقت در توانايي پيش بيني است. هدف توصيف، تمرکز بر روي درک فرآيند توليد دادهها است. در پيشبيني، تا زماني که مدل قدرت پيش بيني دارد، کاربر توجهي به اين که مدل انعکاس دهنده واقعيت است ندارد. مثلاً مدلي که شاخصهاي مالي را به شکل غيرخطي ترکيب ميکند تا نرخ تبادل ارز را پيش بيني کند.
از سويي ديگر، مدل توصيفي، به عنوان انعکاس واقعيت تفسير ميشود. مثلاً مدلي که متغيرهاي اقتصادي و جمعيتي را به پيشرفتهاي آموزشي مرتبط ميکند، به عنوان مبنايي براي توصيههاي سياست اجتماعي استفاده ميشود. در عمل، اغلب کاربردهاي اکتشاف دانش به درجهاي از هردو مدلسازي توصيفي و پيشبيني نياز دارند.
ميتوان اکثر مسائل موجود را در قالب وظايف زير دسته بندي کرد:
1. ردهبندي (Classification) (يافتن مدلي براي پيشبيني)
2. کشف قوانين انجمني/باهمآيي (Mining Association Rule) (براي توصيف و پيشبيني وضعيت آينده)
3. خوشهبندي (Clustering) (براي توصيف دادهها)
توضيح تک به تک موارد فوق و آوردن مثال مجال مفصل تري را ميطلبد.
کاربردها
بعضي از کاربردهاي دادهکاوي را ميتوان در کاربردهاي معمول تجاري (مثل تحليل و مديريت بازار، تحليل سبد بازار، پيشبيني قيمت نفت، بازاريابي هدف، فهم رفتار مشتري و تحليل و مديريت ريسک)، مديريت و کشف فريب (کشف فريب تلفني، کشف فريبهاي بيمهاي اتومبيل، کشف حقههاي کارت اعتباري، کشف تراکنشهاي مشکوک مالي و پولشويي)،متن کاوي (خلاصهسازي، يافتن متون مشابه و کلمات کليدي، پالايش نامههاي الکترونيکي، گروههاي خبري و غيره)، پزشکي (کشف ارتباط علامت و بيماري، تحليل آرايههاي DNA، تصاوير پزشکي)، وبکاوي (پيشنهاد صفحات مرتبط، بهبود ماشين هاي جستجوگر يا شخصيسازي حرکت در وب سايت) و يافتن روندهاي فرهنگي سياسي در وب، تحليل شبکههاي اجتماعي وب 2 (وبلاگها، ويکيها)، آنالير ترافيک وب، تشخيص نفوذي به شبکه، متن کاوي، بيوانفورماتيک، سيستم پيشنهاد دهنده براي آموزش مجازي و کاربردهاي بسيار ديگري در شاخههاي مختلف مهندسي دانست. البته دادهکاوي هر کاري را انجام نميدهد و هر کار آماري را دادهکاوي نمينامند. براي دادهکاوي شناخت و تحليل دادهها مورد نياز است، به طوريکه بتوان روابط و الگوهاي بين دادهها را با کمک افراد خبره پيدا کرد.
وضعيت فعلي در ايران
در کشور ما نيز با رشد روزافزون دادهها در کارخانجات، شرکتها، فروشگاههاي زنجيرهاي و مراکز مختلف دولتي و خصوصي نياز به استفاد ه از دانش نهفته در آنها يعني انجام دادهکاوي روي دادهها ضروري به نظر ميرسد. دادههاي مرکز آمار ايران، داروخانهها، بيمارستانها، دادههاي مرکز پليس، مراکز قضايي، کارت سوخت، سازمان هواشناسي کشور، بانکها، بيمه و ... از جمله دادههاي انبوه و بسيار ارزشمندي هستند که شايستگي دادهکاوي و تحليل قوانين پنهان را دارند. دادهکاوي ميتواند با کشف الگوهاي پنهان در اصلاح روند تصميمگيري مديران بسيار موثر باشد اما کشور ما به دليل عدم وجود فرهنگ به اشتراکگذاري اطلاعات از دستاوردهاي اين فناوري محروم است.
پاورقي:
1)Data Warehouse
2)Visualization