داده كاوي بوسيله حسابگري نرم - Artificial Intelligence

**Astaraki** · ۱۱-۳۰-۱۳۸۸, ۱۱:۲۳ قبل از ظهر

داده كاوي بوسيله حسابگري نرم

قرن حاضر، قرن فن‌آوري اطلاعات و داده كاوي[1] است. انقلاب ديجيتالي، ثبت و ذخيره‌ي اطلاعات را بصورت عددي بسيار آسان نموده است. با توسعه‌ي سخت‌افزاري و نرم‌افزاري و به خدمت‌گيري آن در امور زندگي، حجم عظيمي(از نظر تعداد و بعد) از اطلاعات غيرمتجانس(مخلوطي از اطلاعات موضوعي، نمادين، عددي، متني، تصويري) ثبت و ذخيره مي‌شود و ديگر با اين حجم از اطلاعات غيرمتجانس، استفاده از روش‌هاي آماري كلاسيك جهت تحليل كفايت نمي‌كند. رويكرد شناسايي الگو [2] و يادگيري ماشين [3] اصولي هستند كه براي تحليل اطلاعات نامتجانس و حجيم بكار مي‌رود و كاوش اطلاعات نام دارد. كاوش اطلاعات، فرآيندي براي شناسايي الگوهاي قابل قبول، جديد، مفيد و قابل فهم از اطلاعات است. به‌منظور كارآيي، استحكام و انعطاف‌پذيري مورد نياز در كاوش اطلاعات حجيم و نامتجانس، استفاده از ابزار محاسبات نرم [4] مورد نياز است. هدف محاسبات نرم، بهره‌برداري از مقداري قابل قبول از عدم‌قطعيت، ابهام، استدلال تقريبي و حقيقت نسبي جهت دستيابي به قابليت مهاركردن [5] ، استحكام [6]، هزينه‌ي كم حل مساله و تشابه نزديك با الگوي تصميم‌گيري بشري مي‌باشد. ادعاي اصلي محاسبات نرم، پذيرش حدي قابل قبول از نادقيقي با به خدمت گرفتن روش‌هاي محاسباتي است كه به حل قابل قبول و ارزانتر مساله منجر مي‌شود. محاسبات نرم، پايه‌اي براي هو ش مصنوعي است و ساختار اصلي آن را منطق فازي [7]، محاسبات نروني [8]، الگوريتم ژنتيك [9] و مجموعه‌هاي ناهموار [10] تشكيل مي‌دهد كه اجزاي اين ساختار مكمل همديگرند و نه رقيب يكديگر. منطق فازي الگوريتم‌هايي براي مدلسازي ابهام و عدم‌قطعيت فراچنگ مي‌آورد، محاسبات نروني وسيله‌اي براي يادگيري و برازش منحني در اختيار قرار مي‌دهد، الگوريتم ژنتيك الگوريتم‌هايي براي جستجو و بهينه‌سازي ارائه مي‌دهد و مجموعه‌هاي ناهموار چارچوبي براي منظور نمودن عدم‌قطعيت فراهم مي‌آورد.
2-فرآيند كشف رابطه حاكم بر اطلاعات

جستجوي الگوي حاكم بر اطلاعات با فشردهسازي اطلاعات توسط كشف رابطه شباهت يا رابطه زيرمجموعگي حاكم بر اطلاعات آغاز ميشود. رابطه شباهت رابطهاي متقارن و رابطه زيرمجموعگي، پادمتقارن ميباشد. يافتن رابطه شباهت يا زيرمجموعگي حاكم بر اطلاعات، متناظر خوشهبندي اطلاعات ميباشد. در ادامه رابطه ترتيبي و نظم حاكم بر اين خوشهها جستجو ميشود.

از ميان روابط موجود بين زوجهاي مرتب، رابطهاي كه داراي خصوصيات بازتابي، تقارني و تراگذري (انتقالي) مي‌باشد ، در حالت كلي رابطه شباهت اطلاق ميشود. اين رابطه در حوزه نظريه مجموعههاي كلاسيك، رابطهي همارزي خوانده ميشود. همانطور كه ميدانيم، هر رابطه‌ي هم‌ارزي بيانگر يك افراز مي‌باشد و هر افراز يك رابطه‌ي هم‌ارزي تعريف مي‌كند. مثلا رابطه‌ي هم‌كلاسي بودن در مجموعه‌ي مرجع شاگردان مدرسه، يك رابطه‌ي هم‌ارزي است و اين رابطه، مدرسه را به چندين خوشه تقسيم مي‌كند. بنابراين از نقطه نظر رياضي، با يافتن يك رابطه‌ي هم‌ارزي، خوشهيابي انجام شده و فشردهسازي اطلاعات انجام گرديده است. دو نمونه‌ي هم‌ارز در يك خوشه قرار مي‌گيرند و دو نمونه‌ي غيرهم‌ارز در دو خوشه‌ي جدا قرار مي‌گيرند.

تعابير متفاوتي از رابطه شباهت در حوزه‌ي نظريه‌ي مجموعه‌هاي فازي ارائه شده است كه از آن ميان مي‌توان به رابطه‌ي شباهت [11] (پيشنهاد زاده)، رابطه‌ي همانندي [12] (پيشنهاد rusppini ) و رابطه‌ي تميزناپذيري [13] (پيشنهاد mantaras و valverde ) اشاره نمود. با تعريف رابطه‌ي شباهت مي‌توان به طور مشابه تعريفي براي فاصله (عدم شباهت، متريك دروغين) ارائه نمود كه شباهت با قانون دمورگان به فاصله مربوط ميشود. بنابراين از نقطه نظر رياضي، يافتن يك رابطه‌ي هم‌ارزي (در حوزه‌ي نظريه‌ي مجموعه‌هاي كلاسيك) يا يك رابطه‌ي شباهت / رابطه‌ي همانندي / رابطه‌ي تمييزناپذيري (در حوزه‌ي نظريه‌ي مجموعه‌هاي فازي) در بين اطلاعات، معادل شناسايي الگوهاي مشابه موجود در اطلاعات ميباشد.

از سوي ديگر، رابطه زيرمجموعگي به رابطهاي اطلاق ميشود كه از نظر رياضي داراي خواص انعكاسي، پاد تقارني و تراگذري(انتقالي) ميباشد. توسعه مفهوم رابطه زيرمجموعگي به نظريه مجموعههاي فازي با توسعهي مفاهيم زيرمجموعگي و عدم زيرمجموعگي قابل انجام است كه پيشنهادهاي مختلفي براي آن وجود دارد. كشف رابطه زيرمجموعگي حاكم بر اطلاعات نيز متناظر خوشهبندي و فشردهسازي اطلاعات ميباشد. با كشف اين رابطه عناصر پايهاي اطلاعات مشخص ميگردد و عمل جداسازي منبع [14] انجام ميپذيرد.

پس خوشهبندي اطلاعات، نوبت به كشف رابطه ترتيبي و نظم حاكم بر اين خوشهها ميرسد. رابطهي اگر...آنگاه را ميتوان يكي از اين نوع روابط دانست كه از آن در حوزهي نظريه مجموعههاي فازي دو تعبير متفاوت شده است. برخي آنرا از نوع تداعي تلقي ميكنند و در نتيجه آنرا رابطهاي متقارن تصور ميكنند و برخي ديگر آنرا رابطهاي ايجابي ميدانند و در نتيجه آنرا مطابق منطق ارسطويي، رابطهاي پادتقارني ميانگارند.

3-جستجوي قانون توسط استقراء

يادگيري، توانايي استنباط و تطبيق جزو عوامل بقاي بشر است. بشر با تامل در مشاهدات به كشف قوانين طبيعي نايل مي‌آيد و مدل‌هاي ساده‌ شده‌اي از روابط پيچيده‌ي طبيعي مي‌سازد و از آن در پيش‌بيني رفتار طبيعت مدد مي‌جويد. هر چه ساده‌سازي [15] بيشتر باشد دقت اطلاعات كاهش مي‌يابد. در بازنمايي رياضي، سيستم مطابق يك قانون طبيعي ساده شده‌ي مشخص مدلسازي مي‌گردد (قانون نيوتن، قانون ماكسول). اين مهم باعث مي‌شود كه مدل تنها در يك حالت خاص، مقياس معلوم و حوزه‌ي كاربرد مشخص اعتبار داشته باشد و عدول از آنها، مدل را غيرقابل استفاده مي‌كند. حال آنكه مي‌توان به كمك تئوري يادگيري فرضيات كمتري در ساخت مدل بكار برد و حتي قوانين ساده ‌شده را در يك حوزه‌ي وسيعتري از مشاهدات مميزي نمود. مدل‌هاي رياضي از نظر تئوري غني و از نظر تطبيق با مشاهدات فقيرند حال آنكه مي‌توان به كمك تئوري يادگيري مدل‌هايي ارائه داد كه از نظر تطبيق با مشاهدات غني و از نظر تئوري ففيرترند. در سال‌هاي اخير رشد انفجارآميزي در روش‌هاي يادگيري از اطلاعات مشاهده مي‌شود. در اين راستا يك سوال كلي مطرح مي‌شود كه چگونه مي‌توان يك اصل يا قانون كلي را از روي مشاهدات نتيجه‌گيري ‌كرد؟ اين فرآيند، استقرا [16] خوانده مي‌شود. رويكردهاي متفاوتي وجود دارد كه چارچوبي جهت استقرا از روي مشاهدات محدود فراهم مي‌آورد. از اين ميان مي‌توان به [17] RI و [18] SRM و [19] BI و [20] MDL و [21] ESR اشاره كرد [1] كه هر يك چارچوبي جهت استقراء از روي مشاهدات محدود فراهم مي‌آورد. در ذيل هر يك از اين چارچوب‌ها روش‌هاي يادگيري متفاوتي ارايه شده است كه بر اساس هر يك از اين اصل‌هاي استقرايي، يك مساله‌ي بهينه‌سازي (با تابع هدف و محدوديت‌هاي مشخص) تعيين مي‌گردد و حل مساله به حل اين بهينه‌سازي كه در حالت كلي غيرخطي مي‌باشد، منجر مي‌گردد. با شناسايي روابط ناشناخته بين عناصر و اجزا، مي‌توان از آن در پيش‌بيني رفتار نيز استفاده نمود. استفاده از قوانين كلي در پيش‌بيني را اصطلاحا قياس [22] گويند. راه ميانبر ديگري براي پيش‌بيني رفتار بدون ميانجيگري استقرا وجود دارد كه به آن استدلال تشبيهي [23] گويند. در اين روش، مستقيما از روي مشاهدات رفتار پيش‌بيني مي‌شود.

در فرآيند يادگيري يا استقرا بايد ويژگي‌هاي مهم و قابل اعتناي اطلاعات را استخراج كرد و اطلاعات اضافي و زايد را حذف نمود. با توجه به نوع اطلاعات، ويژگي‌هاي متفاوتي مورد توجه قرار مي‌گيرد كه از آن ميان مي‌توان به فركانس [24]، لنگرهاي تغييرناپذير [25] (مثل ميانگين، واريانس وغيره)، آنتروپي [26] ، بعد فركتال [27]، تحليل cepstrum ، تبديل هيلبرت و غيره اشاره كرد [2]. ويژگي فركانسي براي داده‌هاي پايا [28] با تبديل فوريه و براي داده‌هاي غيرپايا با تبديل گابور [29] يا تبديل فوريه‌ي كوتاه زماني [30] و يا تبديل‌هاي چند مقياسي يا تبديل موجك [31] استفاده كرد. همچنين مي‌توان ضرايب مدل AR ، طيف توان و غيره را به عنوان ويژگي اطلاعات مورد استفاده قرار داد [3]. فركانس آني [32] و يا ساخت سيگنال تحليلي [33] براي ساخت تابع انرژي نيز نوع ديگري از ويژگي اطلاعاتي ميباشند كه به كمك تبديل هيلبرت قابل محاسبه است.

4-معيار جستجوي رابطه

يكي از راه‌هاي ادراك مفاهيم و رابطه‌ي بين آن‌ها براي حل مسائل، راه عقلاني مي‌باشد. ادراك عقلاني مصطلح، مجموعه‌اي از عقل(با تعبير تجريد مفاهيم، كشف رابطه و موتور جستجو و استن باط ) و بيان آن با زبان(قالب‌هاي تصور(اسم، خوشه‌(رابطه‌ي هم‌ارزي)) و تصديق(فعل، مدل گرافي يا اگر .. آنگاه (رابطه‌ي ترتيبي)) مي‌باشد. ادراك عقلاني انسان با يافتن رابطه‌ي هم‌ارزي، زيرمجموعگي و ترتيبي حاكم بر مشاهدات سنسوري، و در قالب زبان انجام مي‌پذيرد. نكته‌ي پايه‌اي در يافتن اين روابط، معيار جستجوي رابطه مي‌باشد كه از فرهنگي به فرهنگ ديگر متفاوت است و شايد محققين از آن تعبير به فرازبان مي‌كنند. اينكه خوشه‌يابي(يافتن رابطه‌ي هم‌ارزي يا زيرمجموعگي) با چه معياري انجام پذيرد و مدل گرافي يا اگر .. آنگاهي (رابطه‌ي ترتيبي) با عنايت به چه معياري كاوش گردد. هر حوزه‌ي تخصصي براي خود معيار مشخصي دارد كه منجر به تفسير خاص خود از طبيعت و مشاهدات سنسوري مي‌گردد. به نظر مي‌رسد بايد در حوزه‌ي تجربه به كاويدن معيارهاي علمي قوانين فيزيكي دست يازيد و سعي نمود با عنايت به اين معيارها و با توجه به عصر اطلاعات و انقلاب ديجيتال مسائل را بصورت اطلاعات محور [34] حل كرد و تجارب و مشاهدات را بازخواني نمود.

5-قاعدههاي يادگيري

قواعد يادگيري در حوزه‌هاي متفاوتي فرمولبندي شده است. گونه‌هاي متفاوت اين روشها را در تئوري يادگيري آماري، تئوري اطلاعات، شبكه‌هاي عصبي مصنوعي، سيستمهاي فازي و الگوريتمهاي ملهم از طبيعت مي‌توان مشاهده كرد. روح حاكم بر اين تئوري‌ها مشابه است، لكن بعضا رويكرد متفاوتي دارند. به عنوان نمونه مي‌توان رويكرد شبكه‌ي عصبي را كه تلاشي براي شبيه‌سازي رفتار انسان در يادگيري از روي مشاهدات مي‌باشد، رويكردي شيي‌گرا قلمداد نمود و رويكرد آماري را رويكردي ساختارگرا دانست.

از قواعد يادگيري متنوعي كه در حوزههاي مختلف ارائه شده است، ميتوان به قواعد ذيل اشاره كرد.

· يادگيري مبتني بر تصحيح خطا (قاعده دلتا، قاعده ويدرو-هاف [35] )

· يادگيري مبتني بر حافظه

· يادگيري هب [36]

· يادگيري رقابتي

· يادگيري بولتزمن [37]

· يادگيري تكاملي

· يادگيري ژنتيك

· يادگيري ملهم از آب دادن فولاد

· يادگيري ملهم از كولوني مورچه

· يادگيري ملهم از سيستم ايمني بدن انسان

در يك تقسيم‌بندي ديگر مي‌توان يادگيري را به يادگيري بدون سرپرست [38] و يا يادگيري با سرپرست [39] (با ناظر و يا با نقاد) تقسيم‌بندي كرد.

يادگيري بدون سرپرست براي حل مسايل كاهش بعد اطلاعات [40] ، خوشه‌يابي [41]، فشرده‌سازي اطلاعات [42]، استخراج ويژگي [43]، بازشناخت الگو [44]، جداسازي كوركورانه منابع [45] و غيره مورد استفاده قرار مي‌گيرد. برخي اوقات اين روش‌ها به عنوان فاز پيش‌پردازش اطلاعات براي روش‌هاي با‌سرپرست مورد استفاده قرار مي‌گيرد. از الگوريتم‌هاي مورد استفاده در حوزه‌ي تئوري آمار مي‌توان به [46] LVQ و [47] FA و [48] PCA و [49] ICA و [50] SVP و غيره اشاره كرد. از الگوريتم‌هاي مورد استفاده در حوزه‌ي تئوري شبكه‌ي عصبي مي‌توان به [51] SOM و [52] ART و [53] KCM و غيره اشاره كرد. هدف روش‌هاي يادگيري بي‌سرپرست را مي‌توان خوشهبندي اطلاعات تلقي نمود حال آنكه عموما در روش‌هاي با‌سرپرست كشف رابطه هدف اصلي مي‌باشد.

يادگيري با‌سرپرست با توجه به اينكه پاسخ مطلوب شبكه وجود دارد و يا اينكه تنها ملاكي براي ارزيابي پاسخ وجود دارد به يادگيري با ناظر و يادگيري با نقاد [54] تقسيمبندي ميشود. در يادگيري با ناظر، يادگيري تصحيحي است و در يادگيري با نقاد، يادگيري تقويتي ميباشد. يادگيري با سرپرست، براي حل مسايل برازش [55]، طبقه‌بندي [56] و غيره مورد استفاده قرار مي‌گيرد.

6-چگونگي تركيب اطلاعات[57]

در فرآيند دادهكاوي و يا هر فرآيند تصميمگيري، چگونگي تركيب اطلاعات يكي از مسائل كليدي ميباشد. تركيب اطلاعات توسط سه عملگر "و"، "يا" و "تجميع (همجوشي)" انجام ميگيرد. كه با عنايت به نظريه مجموعههاي فازي بينهايت عملگر "و"، "يا" و "تجميع" قابل تعريف است كه هر يك در يك بازه مشخص قرار ميگيرد. حد بالاي عملگرهاي از جنس "و"، عملگر مينيمم و حد پايين آن ضرب قوي [58] ميباشد. حد بالاي عملگر "يا" جمع قوي [59] و حد پايين آن عملگر ماكزيمم ميباشد. هر عملگري بين عملگر مينيمم و عملگر ماكزيمم، عملگر تجميع [60] (همجوشي، ميانگينگيري) ميباشد. در فرآيند تصميمگيري و تحليل اطلاعات به كرات از اين عملگرها جهت تركيب اطلاعات مشاهدات استفاده ميگردد.

مرجع

[1] Learning from data, Cherkassky,V., Mulier, F., John Wiley and sons,1998.

[2] Evangelia Micheli-Tzanakou, (1999), “Supervised and Unsupervised Pattern Recognition, feature extraction and computational intelligence”, Industrial electronics series.

[3] Ypma, Alexander, (2001), “Learning methods for machine vibration analysis and health monitoring”, Ph.D thesis, Technische Universiteit Delft, Hungary.

[4] Data Mining, Practical Machine Learning Tools and Techniques, I.H. Witten, E. Frank, 2nd ed., elsevier, 2005.

[5] Weka : Waikato Environment for Knowledge Analysis (machine learning software), University of Waikato, New Zealand.

[1] Data Mining

[2] pattern recognition

[3] machine learning

[4] soft computing

[5] tractability

[6] robustness

[7] fuzzy logic

[8] neuro computing

[9] genetic algorithm

[10] rough sets

[11] similarity measure

[12] likeness relation

[13] indistinguishability relation

[14] Source seperation

[15] generalization

[16] induction

[17] Regularization Induction

[18] Structural Risk Minimization

[19] Baysian Inference

[20] Minimum Description Length

[21] Early Stopping Rules

[22] deduction

[23] Analogy or transduction

[24] frequency

[25] invariant moments

[26] Entropy

[27] fractal dimension

[28] stationary

[29] Gabor Transform

[30] Short Time Fourier Transform

[31] wavelet transform

[32] instantaneous frequency

[33] analytical

[34] Data Driven

[35] Widrow-Hoff rule

[36] Hebian learning

[37] Boltzman learning

[38] unsupervised

[39] supervised

[40] dimensionality reduction

[41] clustering

[42] data compression

[43] feature extraction

[44] pattern recognition

[45] blind source separation

[46] Learning Vector Quantization

[47] Factor Analysis

[48] Principal Component Analysis

[49] I ndependent Component Analysis

[50] Support Vector Paradigm

[51] Self Organizing Map

[52] Adaptive Resonance Theory

[53] K-Centers Method

[54] Learning with critics

[55] regression

[56] classification

[57] Data fusion

[58] Drastic product

[59] Drastic sum

[60] aggregation