متن کاوی (Text Mining) - Artificial Intelligence

**Astaraki** · ۰۸-۲-۱۳۸۸, ۰۳:۵۰ بعد از ظهر

Text Mining در واقع کاربرد داده کاوی در فایل های متنی است که بدون ساختار بوده و یا اینکه ساختار چندان مرتبی نداشته باشند. مزایای Text mining به شرح زیر است:

تشخیص اطلاعات پنهان در متن که ممکن است با تاکید کمتری بیان شده باشند به عنوان مثال تشخیص روابط پنهان میان پارامتر ها
یکی نمودن اسناد بر اساس مطالب مشابه

معرفي
اطلاعات باعث قدرت است و دانش قدرتمند تر. اکنون بيشتر از 80 درصد از دانش ما به صورت متن، مستندات و ديگر صورتهاي رسانه اي نظير ويديو و صدا نگهداري مي شود. اگر از منظر علوم کامپيوتري به اين مستندات نگاه کنيم همه ي آنها به طبيعتي غير ساختيافته وابسته اند. يک فرد براي دريافت دانش از اطلاعات يک متن، بايستي ابتدا آنرا درک کند و سپس آنرا پردازش کند تا بفهمد چه معاني و مفاهيمي در آن موجود است، چه ارتباطي ميان مفاهيم وجود دارد و از ميان اين مفاهيم کدام جديد است و کدام قديمي. با اين حال در اين عصر تکنولوژي، ما معتقديم که هر چيزي بايد بتواند اتوماتيک انجام شود حتي اگر اين کار " درک معني متن" باشد. اين تنها يکي از نامهايي است که شما براي اين نوع از پردازش مي يابيد. "متن-کاوي"، "کاوش داده هاي متني"[1] و نيز نام معروف "کشف دانش در متن"[2] يا KDT، از نامهاي بيشتر مورد قبول دراين زمينه هستند.
متن-کاوي، در تکنولوژي هاي متفاوتي ريشه دارد و از اينرو اين تعجب انگيز نيست که تعاريف زيادي نيز براي آن وجود دارد. افرادي که داراي پيشينه کار در زمينه ي داده-کاوي[3] بودند مي خواستند که همان مفاهيم و روشهاي موجود در داده-کاوي را بر متون اعمال کنند و تعاريف شان نيز منطبق بر همين زمينه بود. اما کساني که از جامعه ي زبان دانان محاسباتي[4] آمده بودند، قصد داشتند که اين توانايي را به کامپيوتر بدهند که بتوانند متن را بفهمند و اين غايت چيزي است که از متن-کاوي مورد انتظار است. در باره ي گستره ي تعاريف موجود از متن-کاوي در بخش 2 بيشتر خواهيم ديد. بخش 3 اساساً به مبحث کاربردهاي متن-کاوي مي پردازد. بخش 4 روشهاي کلي متن-کاوي را مورد کنکاش قرار مي دهد. درنهايت در بخش آخر ما يک نتيجه گيري کلي ارائه خواهيم کرد.

2 تعاريف
در دنياي کنوني اين کمبود اطلاعات نيست که مسئله است بلکه کمبود دانشي است که از اين اطلاعات مي توان حاصل کرد. ميليونها صفحه ي وب، ميليونها کلمه در کتابخانه هاي ديجيتال و هزاران صفحه اطلاعات در هر شرکت تنها چند دست از اين منابع اطلاعاتي هستند. اما نمي توان به طور مشخص منبعي از دانش را در اين بين معرفي کرد. دانش خلاصه ي اطلاعات است و نيز نتيجه گيري و حاصل فکر و تحليل بر روي اطلاعات.
داده کاوي، يک روش بسيار کاراست براي کشف اطلاعات از داده هاي ساختيافته اي که در جداول نگهداري مي شوند. داده کاوي، الگوها را از تراکنش ها[5]، استخراج مي کند، داده را گروه بندي مي کند و نيز آنرا دسته بندي مي کند. بوسيله ي داده کاوي مي توانيم پي به وجود روابطي ميان اقلام داده اي که ديتابيس را پر کرده اند ببريم. در عين حال ما با داده کاوي مشکلي داريم و آن عدم وجود عاميت در کاربرد آن است. تعداد منابع داده اي ساخت يافته ي ما که به حد کافي بزرگ نيز باشند که مفاهيم داده کاوي قابل اعمال بر آنها باشد، چندان زياد نيستند. در واقع بيشتر دانش ما اگر به صورت غير ديجيتال نباشند، کاملاً غير ساختياقته اند. کتابخانه هاي ديجيتال، اخبار، کتابهاي الکترونيکي، بسياري از مدارک مالي، مقالات علمي و تقريباً هر چيزي که شما مي توانيد در داخل وب بيابيد، ساختياقته نيستند. در نتيجه ما نمي توانيم آموزه هاي داده کاوي را در مورد آنها به طور مستقيم استفاده کنيم.
با اين حال، سه روش اساسي در مواجهه با اين حجم وسيع از اطلاعات غير ساختيافته گسترده شده در جهان وجود دارد. بازيابي اطلاعات[6]، استخراج اطلاعات[7] و کشف دانش در متن اين سه روش برخورد با اين مسئله هستند.
بازيابي اطلاعات اصولاً مرتبط است با بازيابي مستندات و مدارک. کار معمول در IR اينست که بسته به نياز مطرح شده از سوي کاربر، مرتبط ترين متون و مستندات و يا در واقع " بقچه ي کلمه" را ازميان ديگر مستندات يک مجموعه بيرون بکشد. اين يافتن دانش نيست بلکه تنها آن بقچه اي از کلمات را که به نظرش مرتبط تر به نياز اطلاعاتي جستجو گر است را به او تحويل مي دهد. اين روش به واقع هيچ دانشي و حتي هيچ اطلاعاتي را برايمان به ارمغان نمي آورد.
در نظر بگيريد که مؤسسه اي بسيار موفق داريد و از اينرو تعداد زيادي ايميل در روز دريافت مي کنيد. شما مي خواهيد سابقه ي اين ايميل ها را ثبت کنيد. چه کساني آنرا فرستاده اند، تاريح فرستادن آن چه روزي بوده است، عنوان و متن آن چه بوده است و نظاير آن. اين با بيرون کشيدن اين اطلاعات از تک تک ايميل ها و پر کردن يک ديتابيس از اين اطلاعات ميسر است. اين ممکن است با تعريف يا کشف يک قالب از داده هايي بدست آيد که با آن سروکارداريد. مثلا مي توان برنامه اي داشت که به طور اتوماتيک به دنبال کلمه ي title در سند بگردد و آنچه را که بعداز آن آمده به عنوان يک فيلد در ديتابيس پرکند. هرچند يافتن اين قالب در داده هاي غير ساختيافته ي ديگر، ممکن است به هيچ وجه ساده نباشد. اما زماني که شما اين کار را به پايان برديد، با داده هاي کاملاً ساختيافته اي مواجه هستيد که از دل ايميل ها بيرون کشيده شده است. اما از سويي ديگر، اين تنها اطلاعات است که هنوز شما داريد؛ به اين معني که هيچ چيز جديدي از آنچه که داريد کشف نشده است و همان را که قبلاً مي دانستيد، هنوز هم مي دانيد.
دو مفهوم[8] A و B را درنظر بگيريد که از مجموعه متون، استحصال شده اند. همچنين تصور کنيد که شما ارتباطي را نيز ميان اين دو مفهوم يافته ايد. مثلا اينکه "مناطق باراني" و " کشت برنج" داراي رابط اي به اين صورتند که کشت برنج به مناطق باراني نياز دارد. ( A->B). به علاوه فرض کنيد که مفهوم B نيز با مفهوم C، به همين شکل داراي ارتباط است؛ مثلاً "مناطق شمال کشور" و "مناطق باراني" اين رابطه را به هم دارند که مناطق شمال کشور "هستند" منطقه ي باراني(C ISA A). آنچه ما تاکنون داريم تنها اطلاعات است که استخراج شده است، اما سيستم مي تواندکمي باهوش تر باشد و بتواند بادرک اين دو گزاره نتيجه دهد که گزاره ي سومي نيز قابل طرح است به اين صورت که "مناطق شمال کشور" قابل " کشت برنج" است. اين مثال نشان مي دهد که کشف دانش به چه مي ماند. تاکيد در اين مثال همانطور که مي بينيد بر نو بودن آن چيزي است که بدست آمده است. هرچند افرادي چون [13]، معتقد بر تفاوت اندک تري در IE[9] و KDT[10]، هستند. آنها بر اين باورند که يافته هاي نسبتاً جديد نيز قابل پذيرشند به عنوان متن کاوي. نظير اين يافته هاي دسته بندي متون، خلاصه سازي متون و شبيه آن است. بسياري از مردم به درستي بر اين باورند که IE، مي تواند به عنوان يک فاز پيش پردازش در متن کاوي بکار برود[11].

3 کاربردهاي متن-کاوي
همانطور که مي بينيد تعاريف گسترده اي از متن-کاوي در دست است، در نتيجه اين عجيب نيست که در باره ي کاربردهاي متن کاوي نيز عقايد گوناگوني وجود داشته باشد. از اينرو ما تلاش مي کنيم که تعدادي از کاربردهاي مورد قبول از اين روند را بررسي کنيم و سعي در تطابق اين کاربردها با تعاريف قبلي نداشته باشيم.
اين موارد از [7] ، ذکر مي شود و کمي نيز تصحيح شده است.
جستجو وبازيابي
گروه بندي[11] ( دسته بندي بدون نظارت[12]) و طبقه بندي[13] (دسته بندي بانظارت)
خلاصه سازي
استخراج روابط
يافتن و تحليل ترند[14] ها
برچسب زدن نحوي[15]
ساخت اتوماتيک آنتولوژي[16] و تزاروس[17]
....
همانطور که شما مي بيند بعضي از عناوين مشترک بين زمينه هايي چون بازيابي اطلاعات، هوش مصنوعي و نيز پردازش زبانهاي طبيعي است. من در اينجا مي خواهم که به طور مختصر به هر کاربرد بپردازم.

3.1 جستجو و بازيابي
روشهاي جديدي در رابطه با جستجو وبازيابي اطلاعات با درنظر گرفتن متن-کاوي، قابل تصور است. همانطور که قبلاً گفته شد، بازيابي اطلاعات داراي اين هدف است که از ميان مجموعه اي از مدارک و متون، آنهايي را که مرتبط ترند به نياز اطلاعاتي کاربر، جدا کنند و به کاربر نشان دهند. بنابر اين هميشه شرايطي هست که کاربر نتواند به نياز اطلاعاتي خود، حتي از ميان نتايج دريافت شده، برسد. ممکن است در ميان 100 مدرک نياز به مطالعه باشد تا کاربر آنچه را که مي خواهد بدست آورد. در بسياري از شرايط داشتن سيستمي که بتواند جواب دقيق را برگرداند در بسياري از موارد ترجيح بيشتري دارد. اين نوع از سيستمهاي IR، به سيستمهاي پاسخگو به پرسش[18]، معروفند.
اگرچه اين نوع از سيستمهاي بازيابي اطلاعات بر اساس استفاده از گستره اي از تکنولوژي ها مانند NLP و يادگيري ماشين استوار است اما در نهايت آنچه در اين سيستمها، نقش اصلي را داراست، يک پايگاه دانش است که از طريق روشهاي مبتني بر NLP و يا روشهاي آماري بر روي مدارک موجود در مجموعه ساخته شده است. در استخراج اين روابط، مي توان از متن کاوي استفاده کرد. استخراج چنين روابطي در واقع يکي از کاربردهاي متن کاوي است.

3.2 گروه بندي و طبقه بندي داده
يکي از مواردي که مي تواند به کاربر در يافتن سريعتر اطلاعات مورد نظرش کمک کند، دسته بندي اطلاعات موجود است. اين دسته بندي به کاربر يک نگاه کلي از آنچه در مجموعه متون موجود است مي دهد. در ساختن اين دسته بندي دو روش کلي وجود دارد.
در روش اول شما کلاسهاي از پيش تعريف شده اي از مفاهيم داريد و تلاش مي کنيد که سيستمي داشته باشيد که مستندات و مدارک جديد را به يکي از اين کلاسها، نگاشت کند. اين کار درواقع به طبقه بندي داده ها[19] ، معروف است. در سوي ديگر، گروه بندي[20] داده ها، ساختن اين کلاسها به طور اتوماتيک است. در واقع با گروه بندي مدارک، قصد بر اين است که مشخص شود تمرکز مفاهيم در مجموعه ي متون، حول چه چيزهايي است. در واقع در اينجا ما کلاس از پيش تعريف شده اي نداريم. اين دو در واقع مفاهيمي هستند که از داده کاوي رايج در ديتابيسها، به قرض گرفته شده اند.

3.3 خلاصه سازي
منظور ما از خلاصه سازي، روند ساختن مجموعه اي مفاهيم پايه اي از متن است تنها در چند خط. در اين نوع از متن کاوي به نظر مي رسد که اطلاعات جديدي از متن به دست ندهد به اين دليل که خود نويسنده احتمالاً مي دانسته است که چه چيزي مي خواسته است بگويد و خلاصه ي نوشته هاي او، اطلاع جديدي را اضافه نمي کند. گرچه اين کار مي تواند بررسي محتويات مستندات را براي کاربران ساده تر کند و آنهارا در مسير رسيدن به آنچه نياز دارند، سرعت دهد.
3.4 روابط ميان مفاهيم
از جمله واقعيتهايي که مي توان از يک مجموعه متون دريافت، ارتباط و وابستگي بعضي مفاهيم است با مفاهيم ديگر. اين واقعيات به طور مثال مي تواند بگويد که پديدار شدن بعضي کلمات ممکن است که وابسته باشد به ظاهر شدن بعضي ديگر از کلمات. منظور اين است که هرگاه شما مجموعه ي اول کلمات را ببينيد، ما مي توانيم انتظار داشته باشيم که مجموعه ي دوم لغات را نيز ببينيم. اين مفهوم نيز از داده کاوي در ديتابيس به امانت گرفته شده است. ما در اين مورد در ادامه بيشتر صحبت خواهيم کرد.

3.5 يافتن و تحليل ترند ها
فرض کنيد که شما مدير يک کمپاني تجاري هستيد. مشخصاً شما بايستي همواره چشمي بر فعاليتهاي رقيبانتان داشته باشيد. اين مي تواند هر نوع اطلاعاتي باشد که شما از اخبار، معاملات بورس و يا از مستندات توليد شده توسط همان کمپاني رقيب گرفته ايد.
اگرچه در حال حاضر که اطلاعات به طور فزآينده اي در حال افزايش است، مديريت تمامي اين منابع داده اي قطعاً تنها به کمک چشمانتان ممکن نيست. متن-کاوي به شما اين اجازه را مي دهد که به طور اتوماتيک ترندها و تغييرات جديد را بيابيد. در واقع آنچه اصولاً بايد از متن کاوي انتظار برود اينست که به شما بگويد چه اخباري در ميان گستره اي از اخبار به آنچه مي خواهيد مرتبط است و در اين ميان کدام خبر جديداست، چه پيشرفتهايي در زمينه ي کاري شما صورت مي گيرد و علايق و ترندهاي فعلي چگونه است و با چه روندي تغيير مي کند. با استفاده از اين اطلاعات، مدير تنها از اطلاعات کشف شده براي بررسي وضعيت رقيب مي تواند سود جويد.
3.6 برچسب زدن نحوي[21] (POS)
اگرچه تعداد زيادي معتقد به اين نيستند که اينکار جزئي از متن-کاوي است ولي در [4]، براي مثال سيستمي به نام GATE در دانشگاه شفيلد، در يک کتابخانه ي ديجيتال به اين قصد جاگذاري شده است. GATE شامل ابزاراتي است براي برچسب زدن بر جملات. براي مثال اين سيستم مي تواند در داخل يک متن، نام موقعيتهاي جغرافيايي، نام اشخاص و چيزهايي شبيه اينرا بيابد. به اين خاطر اين سيستم بيشتر شامل استخراج اطلاعات است تا استخراج دانش. در عين حال، POS اغلب نقش بزرگي را در پردازش زبانهاي طبيعي بازي مي کند. در حقيقت اين اولين قدم در پردازش زبان طبيعي است و همانطور که خواهيم ديد پردازش زبان طبيعي يکي از پايه هاي متن-کاوي است.
3.7 ايجاد تزاروس و آنتولوژي به صورت اتوماتيک
مي توان تزاروس و آنتولوژي را به عنوان يک ابزار مناسب براي نمايش دانش استخراج شده از يک مجموعه متن دانست. تزاروس، مجموعه اي است از لغات به اضافه ي تعاريفشان و رابطه ي ميان آنها. اين روابط معمولاً به کمک دست از دل مجموعه ي متون استخراج مي شود.ما مي توانيم تزاروسهاي خاص يا همه منظوره داشته باشيم. رابطه ي ميان اين کلمات مي تواند چيزهاي شبيه "کلي تر"، "خاص تر" و "مرتبط" يا نظير آن باشد. اگر ما تزاروسي داشته باشيم که در آن تمام ارتباطات ميان لغات مشخص شده باشد، مي توانيم آنرا آنتولوژي اين لغات بناميم. هر دوي تزاروس و آنتولوژي کاملاً مفيد هستند چون به ما دنياي لغات و مفاهيمي را نشان مي دهند که در مجموعه ي متون ما وجود دارد. اگر شما يک موتور جستجو را در نظر بگيريد، يک تزاروس، مي تواند مجموعه لغاتي باشد که ما مي توانيم در حين جستجوبکار بريم.
تزاروس ها اکنون مي توانند تنها بوسيله ي دست ساخته شوند و به همين خاطر ساخت آنها بسيار سخت و وقت گير است. فردي که مي خواهد يک تزاروس بسازد بايستي که ارتباطات ميان تمام لغات را بيابد. اين بسيار مورد ترجيح است اگر ما مي توانستيم آنهارا اتوماتيک بسازيم.[17]

اگرچه اين زمينه اي است که ما نمي توانيم هيچ مرزي بر آن قائل شويم. هدف نهايي اينست که هر ذره از دانشي که توسط بشر قابل درک است بوسيله ي کامپيوتر نيز درک شود.

4 فرآيند متن کاوي
متن کاوي فرآيندي است که شامل فيلدهاي تکنولوژيکي فراواني است. بازيابي اطلاعات، داده کاوي و هوش مصنوعي و زبانشناسي محاسباتي همه فيلدهايي هستند که در اين زمينه، نقشي را دارا هستند. اما به طور کلي دو فاز اصلي در فرآيند متن کاوي وجود دارد که در شکل 1 نشان داده شده است[16].

Document Based Representation
Concept Based Representation
Text Refining
Knowledge Extraction
Knowledge Extraction
Figure 1: Text Mining process

اولين فاز پيش پردازش مستندات است. خروجي نخستين فاز مي تواند دو قالب مختلف داشته باشد؛ مبتني برسند[22] و مبتني بر مفهوم[23]. در اولين فرمت نمايش، آنچه براي ما مهم است، نحوه ي نمايش بهتري است براي مستندات. اين ميتواند، تبديل آنها به يك فرمت مياني و نيمه ساختيافته[24] ، باشد يا بكار بردن يك ايندكس بر روي آن يا هر نوع نمايش ديگري كه كار كردن با مستند را كاراتر مي كند. در اين حال هر موجوديت[25] در اين نمايش در نهايت باز هم يك مستند خواهد بود. در نوع دوم بهبود بخشي به نمايش مستند، مفاهيم و معاني موجود در سند و نيز ارتباط ميان آنها و هر نوع اطلاعات مفهومي ديگري كه قابل استخراج است، از متن استخراج مي شود. در اين نوع نمايش ديگر با مستندات به عنوان يك موجوديت مواجه نيستيم بلكه با مفاهيمي روبروييم كه از اين مستندات استخراج شده اند.
قدم بعدي استخراج دانش است از اين فرمهاي مياني نمايش مستندات. بسته به نحوه ي نمايش يك مستند، روال استخراج دانش براي يك مستند متفاوت است. نمايش مبتني بر مستند، براي گروه بندي، طبقه بندي، تصوير گري[26] و نظاير آن استفاده مي شود، درحاليكه نمايش مبتني بر مفهوم براي يافتن روابط ميان مفاهيم ، ساختن اتوماتيك تزاروس و آنتولوژي و نظاير آن بكار مي رود.

4.1 روشهاي متن كاوي
تعداد زيادي روش در فاز استخراج دانش وجود دارد. درعين حال تمام اين روشهارا شايد بتوان به دو دسته اصلي تقسيم كرد. اين دو دسته اصلي، روشهاي مبتني بر كارايي و روشهاي مبتني بر دانش هستند. در روش اولي، طراحان نگران كارايي سيستم هستند و طوري سيستم را طراحي مي كنند كه بهترين كارايي و سرعت را داشته باشد. روشهاي رايجتر در اين نوع نگرش، روشهاي آماري و نيز شبكه هاي عصبي هستند.
روشهاي آماري بر پايه هر نوع اطلاعات آماري است كه از متون قابل استخراج است. مواردي چون تكرار لغات به تنهايي، تكرار لغات با هم و چيزهايي شبيه آن. به عنوان يك مثال ديگر، اين مثال را از [1]، ببينيد كه Martin Rajman، در آن نشان مي دهد چگونه ايده هاي موجود در داده كاوي در ديتابيس، قابل اعمال است بر سيستمهاي متن كاوي. اين مثال از يافتن روابط، نمونه بسيار خوبي است از متن كاوي بر مبناي مستند[27].

4.2 يافتن روابط[28]
اينچنين درنظر بگيريد كه مجموعه اي از كلمات مثل و نيز مجموعه اي از مستندات ايندكس شده مثل وجود دارد. در اينجا هر ، با يك زير مجموعه از A در ارتباط است و اين ارتباط به شكل نشان داده مي شود.
اكنون فرض كنيد كه يك مجموعه ا ز كلمات كليدي باشند. مجموعه ي تمام مستندات t در T، به صورتي كه باشد، مجموعه ي پوششي براي W خوانده مي شودو به شكل [W].، نشان داده مي شود.
هر زوج (W,w) كه مجموعه اي از لغات است و نيز ، يك قانون رابطه[29] خوانده مي شود و به شكل . نمايش داده مي شود.
با داشتن يك قانون رابطه مثل خواهيم داشت:
, ميزان پشتيباني[30] از رابطه خوانده مي شود با توجه به مجموعه ي T.
, ميزان اطمينان[31] از قانون R خوانده مي شود با توجه به مجموعه ي T.
بوسيله ي ، منظور ما احتمالي است كه يك متن كلمه ي كليدي w را دارا باشد اگر هم اكنون كلمات مجموعه W را داراست.
براي اينكه قانوني اين دو شرط پشتيباني و پوشش را برآورده سازد بايد مقدار اين دو پارامتر در مورد آن قانون از ميزاني خاص بيشتر باشد. اين ميزان به نوع مجموعه ي متون وابسته است.
شكل 2 چند مثال نوعي را در اين مورد نشان مي دهد.
شكل 2

در سوي ديگر روشهاي مبتني بردانش قرار دارند كه از زاويه ديد ديگري به اين مسئله نگاه مي كنند. آنها سعي مي كنند اولاً تا حد ممكن مفاهيم موجود را از داخل مجموعه ي متون استخراج كنند و ثانياً بين اين مفاهيم روابطي برقرار كنند. استفاده از اين روش بسيار وابسته به NLP است. در حقيقت اين هدفي است كه NLP نيز آنرا دنبال مي كند و آن در ك متن است. سيستمهايي كه از اين روشها استفاده مي كنند در حال حاضر زياد نيستند ولي DR-LINK[16] از دانشگاه Syracus يكي از آنهاست.

5 نتيجه گيري و كارهاي بعدي
اين يك مرور كلي بود بر كاربردهاي اصلي و روشهايي كه در متن-كاوي بكار مي رود. هرچند طيف وسيعي از كاربردها براي اين تكنولوژي قابل تصور است. درعين حال اين تكنولوژي يك زمينه ي جوان و درحال رشد است كه به ما كمك مي كند از دانش موجود در متون غير ساختيافته بهره ببريم.
كارهاي بعدي حول روشهايي خواهد بود كه از NLP استفاده مي كنند. در اين زمينه همچنين ايده اي هست كه در آن از Human Plausible Reasoning استفاده خواهد شد. اين كاملاً طبيعي است كه از چنين چارچوب منطقي در متن كاوي استفاده كنيم وقتي كه از درك متن استفاده مي كنيم.

6 منابع

[1] M. A. Hearst. Untangling text data mining. In Proceedings of the ACL’99: the 37th Annual Meeting of the Association for Computational Linguistics. University of Maryland, June 20-26 1999
[2] Claire Grover, Harry Halpin, Ewan Klein, Jochen L. Leidner, Stephen Potter, Sebastian Riedel, Sally Scrutchin, and Richard Tobin. A framework for text mining services. In Proceedings of the Third UK e-Science Programme
All Hands Meeting (AHM 2004), 2004.
[3] Sugato Basu, KDD Evaluating! the Novelty of TextMined RulesUsing Lexical Knowledge
[4]Witten, I. H., Don, K. J., Dewsnip, M. and Tablan, V. (2004) “Text mining in a digital library.” International Journal on Digital Libraries 4(1), 56-59
[5] H. Karanikas and B. Theodoulidis, ‘Knowledge discovery in text and text mining software’, Technical report, UMIST - CRIM, Manchester, 2002
[6] Kodratoff Y., “Knowledge Discovery in Texts: A Definition, and
Applications,” in Foundation of Intelligent Systems, Ras & Skowron (Eds.) LNAI
1609, Springer 1999

[7] M. Rajman. Text Mining, knowledge extraction from unstructured textual data. Proc. of EUROSTAT Conference, Francfort (Deutchland), may, 1997
[8] Un Yang Nahm,Text Mining with Information Extraction, 2001. PhD Proposal, The University of Texas at Austin
[9] Marie-Laure Reinberger, Unsupervised Text Mining for Ontology Learning,in proceeding of Machine Learning for the Semantic Web ,2005
[10] Ah-Hwee Tan. Text Mining: The state of the art and the challenges. In Proceedings, PAKDD'99 Workshop on Knowledge discovery from Advanced Databases (KDAD'99), Beijing, pp. 71-76, April 1999
[11] K. McCurley and A. Tomkins. Mining and knowledge discovery from the Web. In 7th International Symposium on Parallel Architectures, Algorithms and Networks, Hong Kong, 2004
[12] Oracle Text , a white paper from oracle.
[13] Sehgal, A.K. Text Mining: The Search for Novelty in Text. Ph.D. Comprehensive Examination Report, Dept. of Computer Science, The University of Iowa, April 2004 [14] Haralampos Karanikas, et.al. An Approach to Text Mining using Information Extraction
[15]M Rajman, M. and Besanon, R. 1997. Text Mining: Natural Language Techniques and Text Mining Applications. In Proceedings of the seventh IFIP 2.6 Working Conference on Database Semantics
[16] H. Zhuge et al. An Automatic Semantic Relationships Discovery Approach. The 13th International World Wide Web Conference (WWW2004), New York, USA, May 2004,

[1] Text data Mining
[2] Knowledge Discovery in Text
[3] Data mining
[4] Computational linguistics community
[5] Transactions
[6] Information Retrieval
[7] Information Extraction
[8] Concept
[9] Information Extraction
[10] Knowledge Data mining from Text
[11] Clustering
[12] Unsupervised Classification
[13] Categorization
[14] Trend
[15] Part of Speech tagging
[16] Ontology
[17] Thesaurus
[18] Question Answering System
[19] Categorization
[20] Clustering
[21] Part of Speech Tagging
[22] Document based
[23] Concept based
[24] Semi-Structured
[25] Entity
[26] Visualization
[27] Document based
[28] Association Detection
[29] Association Rule
[30] Support
[31] Confidence