![]() |
مقدمه ای بر داده کاوی
واقعا داده کاوی چیه ؟
حتماً تاکنون بارها عبارت "انقلاب دیجیتال" به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه های مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایده انقلاب دیجیتال در زندگی فکر کرده اید؟ در طول دهه گذشته با پیشرفت روز افزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمانهایی موفقند که بتوانند حداقل 7% داده هایشان را تحلیل کنند . تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده ها هستند تشنه دانش می باشند. بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد. داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود. کاوش داد ه ها به معني کنکاش داده هاي موجود در پايگاه داده و انجام تحليل هاي مختلف بر روي آن به منظور استخراج اطلاعات مي باشد. http://i34.tinypic.com/1iehlg.jpg داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت میگیرد و یافتههابابهكارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده كاوی پیش بینی است. و به صورت دقیق تر میتوان گفت : "کاوش داده ها شناسايي الگوهاي صحيح، بديع، سودمند و قابل درک از داده هاي موجود در يک پايگاه داده است که با استفاده از پرداز شهاي معمول قابل دستيابي نيستند" فرایند داده كاوی شامل سه مرحله می باشد : 1. كاوش اولیه 2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید 3. بهره برداری. مرحله 1 : كاوش معمولااینمرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،تبدیل داده هاوانتخاب زیرمجموعههايي از ركوردهاباحجمعظیمیاز متغييرها( فیلدها ) باشد . سپس با توجهبهماهیتمساله تحلیلی، اینمرحلهبهمدلهاي پیش بیني ساده یا مدلهایآماریوگرافیكی برای شناسایی متغیرهاي مورد نظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد . http://i34.tinypic.com/2db33ev.jpg مرحله 2:ساخت و احراز اعتبار مدل اینمرحلهبه بررسیمدلهاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيشبيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیكهایمتعددیبرایر سیدنبهاینهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه دادههای یكسانبهكارمیروند تاكارآییشانباهم مقایسهشود ،سپس مدلی كهبهترین كارآیی راداشته باشد، انتخاب میشود.اینتكنیكها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning مرحله 3 : بهره برداری آخرینمرحلهمدلیراكهد رمرحله قبلانتخابشده است، در دادههایجدیدبه كارمیگیردتا پیشبینیهايخروجیهای مورد انتظاررا تولید نماید.داده كاویبهعنوانابزارمدی ریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست . اخیرا،توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد. بااین وجود تفاوت عمده ای بین داده كاوی و EDA وجوددارد.دادهكاویبی تر به برنامه های كاربردی گرایش دارد تا ماهیت اصلی پدیده .به عبارتیداده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد . مفاهیم اساسی در داده كاوی Bagging: این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بيني بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ایخواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند . Boosting: این مفهوم برای تولید مدلهای چندگانه (برای پیش بینی یا رده بندی)به كار میرود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد كرد . Meta-Learning : این مفهوم برای تركیب پیش بینیهای حاصل از چند مدل به كار میرود.و هنگامی كه انواع مدلهای موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه هاپیش بینی كرده اند.تجربه نشان میدهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود. در مقالات بعدی به نمونه های عملی استفاده از کاوش داده می پردازیم. ---------------------------------- منابع : داده كاوي مقالات همایش ژئوماتیک 84 کتابData Mining with SQL Server 2005 کتاب داده کاوی - دکتر جمال شهرابی با برداشتی آزاد از دست نوشته های خودم |
مفهوم داده کاوی
عبارت داده کاوي مترادف با يکي از عبارت هاي استخراج دانش، برداشت اطلاعات، وارسي داده ها و حتي لايروبي کردن داده هاست که در حقيقت کشف دانش در پايگاه داده ها11 (KDD ) را توصيف مي کند. بنابراين ايده اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و درنهايت قابل درک در داده هاست. واژه کشف دانش در پايگاه داده ها در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. داده كاوي كاربرد سطح بالاي فنون و ابزار بكار برده شده براي معرفي و تحليل داده ها ي تصميم گيرندگان است. اصطلاح داده کاوي را آمار شناسان، تحليل گران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار برده اند در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي از KDD بيشتر استفاده مي کنند. در ادامه چند تعريف از داده کاوي ارائه مي شود. «داده کاوي يا به تعبير ديگر کشف دانش در پايگاه داده ها، استخراج غير بديهي اطلاعات بالقوه مفيد از روي داده هايي است که قبلاً، ناشناخته مانده اند. اين مطلب برخي از روش هاي فني مانند خوشه بندي، خلاصه سازي داده ها، فراگيري قاعده هاي رده بندي، يافتن ارتباط شبکه ها، تحليل تغييرات و کشف بي قاعدگي را شامل مي شود » ( پياتتسکي شاپيرو، ماتئوس کريستوفر) « داده کاوي در حقيقت کشف ساختارهاي جالب توجه، غير منتظره و با ارزش از داخل مجموعه وسيعي از داده ها مي باشد و فعاليتي است که اساساً با آمار و تحليل دقيق داده ها منطبق است» هند (1998) « داده کاوي فرآيند کشف رابطه ها، الگوها و روندهاي جديد معني داري است که به بررسي حجم وسيعي از اطلاعات ذخيره شده در انبارهاي داده با فناوري هاي تشخيص الگو ( مانند رياضي و آمار ) مي پردازد». ( سايت12 SPSS, Data Mining, Statistical Analysis Software, Predictive Analysis, Predictive Analytics, Decision Support Systems) کشف دانش در پايگاه داده ها در جهت کشف اطلاعات مفيد از مجموعه بزرگ داده هاست. دانش کشف شده مي تواند قاعده اي باشد تا ويژگي هاي داده ها، الگوهايي که به طور متناسب رخ مي دهند، خوشه بندي موضوع هاي درون پايگاه داده ها و غيره را توصيف مي کند. يک کاربر سيستم KDD بايستي درک بالايي از قلمرو داده ها به منظور انتخاب زير مجموعه صحيحي از داده ها، رده مناسبي از الگوها و معيار خوبي براي الگوهاي جالب داشته باشد. بنابراين سيستم KDD بايد ابزارهايي با اثر تعاملي داشته باشد نه سيستم هاي تجزيه و تحليل خودکار. لذا کشف دانش از پايگاه داده ها بايد مثل يک فرآيند شامل گام هاي زير باشد: درک قلمرو آماده کردن مجموعه داده ها کشف الگوها (داده کاوي) پردازش بعد از کشف الگو استفاده از نتايج . |
زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۶:۴۴ قبل از ظهر ميباشد. |
Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.