داده کاوی و تفاوت آن با بازیابی داده
ضرورت استفاده از دادهکاوی بطور بسیار زیادی با پیشرفت در تکنولوژی کامپیوتری و بویژه تحول در سازماندهی اطلاعات مرتبط است که اخیراً بسیار مورد توجه بوده است. ابزارهای پرس و جو[1] و گزارشگیری برای استفاده ساده و آسان در جستجوی اطلاعات جدید در سطوح مختلف به ما کمک میکنند. ابزارهای پرس و جو، داده را بازیابی نموده و ابزارهای گزارشگیری، آنها را ارائه میکنند. این ابزارها اجازه انتقال نتایج را به شبکههای مختلف و حتی اینترنت فراهم میکنند که با مشارکت شبکهها، اطلاعات در سطح مناسبی مورد تحلیل قرار میگیرند. این شبکهها باید به اندازه کافی انعطافپذیر بوده تا بتوانند همه درخواستها را با یک نظم خاص و با استفاده از SQL دوباره در پایگاه داده فراهم کنند.بازیابی داده[2] همانند دادهکاوی، اطلاعات و دادههای مورد نیاز را از آرشیو و پایگاه داده استخراج میکنند؛ با این تفاوت که برعکس دادهکاوی، در بازیابی داده معیارها برای بازیابی، از روی دادههای موجود در پایگاه داده انتخاب شده و براساس معیارهایی که در پایگاه داده وجود دارند بازیابی دادهها صورت میگیرد. یک مثال ساده درخواست استخراج اسامی افرادی است که در یک فروشگاه دو محصول مشخص را خریداری کردهاند. این درخواست براساس فیلدهای موجود در پایگاه داده فروشگاه بدون هیچگونه شواهد تجربی مطرح میشود. در حالی که برای پیشگویی در مورد شخصیت مشتریان براساس خرید محصول خاصی نیاز به یک تحلیل آماری اولیه از داده است. و غیر ممکن است که ما بتوانیم با اطلاعات موجود در پایگاه داده و بازیابی دادهها، اطلاعاتی در مورد شخصیت مشتریان به دست آوریم. بنابراین دادهکاوی با بازیابی اطلاعات متفاوت است. زیرا دادهکاوی به دنبال روابط و وابستگی بین پدیدهها بدون هیچ زمینه شناخت از قبل است. دادهکاوی یک تصمیمگیری موثر را فراهم کرده و پس از داوری بر روی داده یک ارزیابی نسبی از دادههای مورد مشاهده فراهم میکند. در حقیقت پرس و جو برای بازیابی داده در پایگاه دادهها با استفاده از یک حالت مشخص و معین در یک زبان پرس و جو همچون SQL انجام میشود و نتیجه حاصل از این پرس و جو، دادهای از همان پایگاه داده است و زیر مجموعهای از دادهای پایگاه داده خواهد بود. اما در دادهکاوی نحوه پرس و جو متفاوت با پرس و جو برای بازیابی داده از یک پایگاه داده است. پرس و جوی مطرح شده در دادهکاوی در شکل مشخص و دقیقی نیست و دادهای بازیابی شده در دادهکاوی معمولاً با آن چیزی که در پایگاه داده اصلی وجود دارد متفاوت است. یعنی پاسخ پایگاه داده به پرس و جو اگر داده صحیج باشد کاملاً دقیق است در حالیکه دادهکاوی تلاش میکند که تا حد ممکن پاسخ دقیق بدست آورد. در دادهکاوی داده قبل از تولید نتایج نیاز به پاکسازی و تغییر دارند تا بهتر بتوانند فرآیند استخراج دانش را پشتیبانی نمایند ولی در پایگاه داده، داده همانگونه که ذخیره میشوند مورد بازیابی قرار میگیرند. به عبارت ساده میتوان گفت که پایگاه داده تنها محل ذخیره و بازیابی داده است اما دادهکاوی تجزیه و تحلیلی است که بر روی این داده صورت میپذیرد تا بتواند قوانینی از آنرا استخراج نماید یا یک پیشبینی ارائه دهد.
منبع