استفاده از داده کاوی در شرکت ها
استفاده از داده کاوی در شرکت ها
بسیاری از شرکت ها data marts و datawarehouse ها را بکار برده اند اما 35% از شرکت ها از داده کاوی استفاده نمی کنند.در این قسمت ما روند داده کاوی و نتیجه ی نظر سنجی 500 شرکت در مورد فعالیت های داده کاوی شان را بررسی می کنیم.
این مطلب مواردی را که مدیران شرکت ها به اطلاعات خام و داده های سراسریشان دست برده اند و از آنها علم و دانش مربوط به یک موضوع خاص از فعالیت های سازمانشان را بیرون می کشند.این روند که شرکت هایی از جمله از Johnson & Johnson, GE Capital, Fingerhut, Procter & Gamble, and Harrah's Casino به طور موثر از آن برای بیرون کشیدن هوش رقابتی استفاده می کنند به داده کاوی معروف است.
روند داده کاوی به شرکتها این اجازه را می دهد که داده های خام خود را که از فعالیت های معمولی شرکت بدست می آید را هرس کرده و به دانشی که مشکلات و سوالات شرکت را حل می کند تبدیل نمایید.
یک تحقیق نتیجه داده که با یک داده کاوی موثر و حرفه ای در یک سری شرکت ها می تواند چیزی برابر 24$ میلیون دلار در هزینه های آن شرکت صرفه جویی کند.
با وجود پتانسیل های داده کاوی مدیران زیاد با مفهوم داده کاوی آشنا نیستند و خیلی کم در لیست ابزار هایی که برای مدیرا ن ارزشمند به حساب می آید قرار می گیرد.
حال به طور خلاصه به روند داده کاوی و نتیجه نظر سنجی 500 شرکت در مورد داده کاوی می پردازیم.این مطلب شامل :الف)مواردی که شرکت ها از تکنیک های داده کاوی استفاده می کنند.ب)دلایلی که شرکتها از داده کاوی استفاده نمی کنند. ج)انواع نرم افزار های داده کاوی که استفاده می کنند. د)تکنیک های داده کاوی مورد استفاده ی این شرکت ها . ه ) نوع داده های خام مورد استفاده ی این شرکت ها برای داده کاوی. و یک سری پیشنهادات برای مدیرانی که می خواهند از داده کاوی برای بدست آوردن اطلاعات هوشمند استفاده کنند نتیجه گیری می کنیم .
روند داده کاوی:
چه پروژه ساده باشد چه پیچیده ,داده کاوی موثر از نیاز به فهم حرفه ای سرچشمه می گیرد و با روند ایجاد این فهم کامل می گردد. شکل شماره 1 دید کلی نسبت به روند داده کاوی نشان می دهد.
در عمل هدف بدست آمده در داده کاوی کمتر حد موزد انتظار است.یک داده کاو حرفه ای به فکر تعریف بسیار کامل برای مساله است که داده کاوی دانش کافی برای حل آن را بوجود می آورد.بعد از مشخص کردن مشکل داده کاو نوع و محدوده ی داده های مورد نیاز را مشخص می کند.که این داده از فعالیت های معمولی و روزانه ی شرکتها بوجود می آید و گاهی هم این داده از روش های غیر معمول مانند منابع آماری و آمار گیری دولتی یا پایگاه داده های تجاری بدست می آید.معمولا داده کاو کل داده های در دسترس را یکی کرده و پایگاه داده های مورد نظر خود را از هرس کردن این مخزن داده ها بدست می آورد.
مدیران معمولا داده های داده کاوی را به دو صورت منابع رسمی و غیر رسمی ذخیره می کنند.منابع داده غیر رسمی شامل فایل های داده ای ad hoc است که پروژه را آسان می کنند.این نوع داده ها دامنه ی کمی دارندو معمولا توسط یک فرد در برنامه هایی مانند ms access یا excel تهیه می شود.
منابع رسمی داده شامل datawarehouse و data mart ای است که مدیر پروژه می خواهد به عنوان بخشی از پایگاه اطلاعات مستند شده ی سازمان استفاده کند.
Data warehouse یک منبع داده ی سیستماتیک با حجم بالای داده است که به عنوان پایگاه اطلاعات و دانش شرکت برای تصمیمات کاری استفاده می شود.
برخلاف پایگاه اطلاعات عملی که شامل اطلاعات لازم برای کسب و کار فعلی سازمان است یک datawarehouse شامل اطلاعات جامعی است که شرکت را برای سالها از لحاظ هر گونه اطلاعات غنی می کند.
این نوع داده های داخل datawarehouse می تواند همراه با جزئیات یا خلاصه شده باشد و مس تواند از منابع گوناگونی در شرکت بدست آمده باشد و برای اهداف تخصصی ذخیره شده باشند.
حرفه ای ها به منابع متمرکز تر و کوچکتر داده data mart می گویند.
وجه مشترکی که بین تمام منابع داده وجود دارد این است که داده کاو از آنها برای بوجود آوردن فهم علمی که تصمیمات شرکت را پوشش می دهند استفاده می کنند.
به علت اینکه داده ها معمولا در مکانها ی مختلف و با فرمت های مختلف و زبانهای گوناگون هستند,داده کاو باید داده ها را برای داده کاوی آماده کند. که به این عمل پردازش گویند. این آماده سازی داده کار دشواری است که بسته به اندازه پروژه معمولا ماه ها طول می کشد.
هنگامی که این بخش کامل شد داده کاو آماده برای بوجود آوردن مدلی برای فهم مسئله سازمان است.
ساختن مدل معمولا یک فرایند وابسته به کامپیوتر است که ملزم درک کامل از مسئله و آشنایی به متد های ساخت مدل است.
هدف داده کاوی درک الگوهای مخفی در داده ها برای حل مشکلات کاری است. فرد می تواند با پردازش داده ها و جستجو برای این الگو های مخفی فهم و اطلاعات حیاتی برای رقابت کاری بدست آورد.
مدیران پروژه معمولا از نرم افزار های داده کاوی مختلفی به عنوان ابزار برای روند داده کاوی استفاده می کنند.
حرفه ای ها معمولا این ابزار ها را از روی مهارت هایشان دسته بندی می کنند.رِنج این درجه بندی ابزارهای داده کاوی از low-end تا high-end است.
محصولات پیچیده تر از متدها و الگوریتم های چندگانه برای تولید یک وظیفه پیچیده ی داده کاوی استفاده می کند.
ابزارهای low-end خلاصه کردن ,دسته بندی و پردازش دادها را به طور ساده ای انجام می دهد. اما تابع های پیچیده و متدهای درک الگو و ... ندارد.
داده کاو ها می توانند از این ابزار ها بنا بر نوع سیستم داده های خیلی ساده یا خیلی پیچیده استفاده کنند.
در ساده ترین حالت می توان از داده های یک جدول ساده ی MS Excel و در پیچیده ترین حالت می توان با یک پایگاه داده ی بسیار عظیم که بر پایه ی Oracleو... است مواجه باشد که در این صورت از ابزار های high-end مانند Clementine EM ,CART یا Oracleو... استفاده کرد.
هنگامی که یک مدل را می سازیم باید آن را ارزیابی نیز بکنیم و اطمینان حاصل کنیم که درست کار می کند.
صحت سنجی مدل با استفاده از تست داده هایی که در ساخت مدل از آنها استفاده نشده امکان پذیر است . داده کاو باید بعد از فاز ساخت مدل حتما ارزیابی داده را انجام دهد چون صحت مدل بدست آمده فقط درستی خود را در مورد دادهایی که ار آنها بدست آمده نشان داده است .مدل ها و الگوریتم های زیادی برای داده کاوی وجود دارد از جمله:
artificial neural networks, automatic clustering detection, decision trees, link analysis, market-basket analysis, memory-based reasoning (MBR), multivariate adaptive regression splines (MARS), rule induction, logistic regression, discriminant analysis, generalized addictive models (GAM), boosting, and genetic algorithms
هر مدل و هر الگوریتم نتیجه متفاوتی را تولید می کند. می بایست هر مدل یا الگوریتم را بنا به هدفی که داده کاو در مورد مسئله دارد (پیش بینی, دسته بندی یا تعیین صحت یک رویداد) انتخاب کنیم. ارزیابی مدل سعی بر این دارد که مشخص کند که مدل روی مقدار مناسبی از داده هایی که جدید است و داده ی تست نام دارد نتیجه ی مطلوبی را ایجاد خواهد کرد.
|