مفهوم داده کاوی
عبارت داده کاوي مترادف با يکي از عبارت هاي استخراج دانش، برداشت اطلاعات، وارسي داده ها و حتي لايروبي کردن داده هاست که در حقيقت کشف دانش در پايگاه داده ها11 (KDD ) را توصيف مي کند. بنابراين ايده اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و درنهايت قابل درک در داده هاست. واژه کشف دانش در پايگاه داده ها در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. داده كاوي كاربرد سطح بالاي فنون و ابزار بكار برده شده براي معرفي و تحليل داده ها ي تصميم گيرندگان است. اصطلاح داده کاوي را آمار شناسان، تحليل گران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار برده اند در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي از KDD بيشتر استفاده مي کنند. در ادامه چند تعريف از داده کاوي ارائه مي شود.
«داده کاوي يا به تعبير ديگر کشف دانش در پايگاه داده ها، استخراج غير بديهي اطلاعات بالقوه مفيد از روي داده هايي است که قبلاً، ناشناخته مانده اند. اين مطلب برخي از روش هاي فني مانند خوشه بندي، خلاصه سازي داده ها، فراگيري قاعده هاي رده بندي، يافتن ارتباط شبکه ها، تحليل تغييرات و کشف بي قاعدگي را شامل مي شود » ( پياتتسکي شاپيرو، ماتئوس کريستوفر)
« داده کاوي در حقيقت کشف ساختارهاي جالب توجه، غير منتظره و با ارزش از داخل مجموعه وسيعي از داده ها مي باشد و فعاليتي است که اساساً با آمار و تحليل دقيق داده ها منطبق است» هند (1998)
« داده کاوي فرآيند کشف رابطه ها، الگوها و روندهاي جديد معني داري است که به بررسي حجم وسيعي از اطلاعات ذخيره شده در انبارهاي داده با فناوري هاي تشخيص الگو ( مانند رياضي و آمار ) مي پردازد». ( سايت12
SPSS, Data Mining, Statistical Analysis Software, Predictive Analysis, Predictive Analytics, Decision Support Systems)
کشف دانش در پايگاه داده ها در جهت کشف اطلاعات مفيد از مجموعه بزرگ داده هاست. دانش کشف شده مي تواند قاعده اي باشد تا ويژگي هاي داده ها، الگوهايي که به طور متناسب رخ مي دهند، خوشه بندي موضوع هاي درون پايگاه داده ها و غيره را توصيف مي کند.
يک کاربر سيستم KDD بايستي درک بالايي از قلمرو داده ها به منظور انتخاب زير مجموعه صحيحي از داده ها، رده مناسبي از الگوها و معيار خوبي براي الگوهاي جالب داشته باشد. بنابراين سيستم KDD بايد ابزارهايي با اثر تعاملي داشته باشد نه سيستم هاي تجزيه و تحليل خودکار. لذا کشف دانش از پايگاه داده ها بايد مثل يک فرآيند شامل گام هاي زير باشد:
درک قلمرو
آماده کردن مجموعه داده ها
کشف الگوها (داده کاوي)
پردازش بعد از کشف الگو
استفاده از نتايج .