کاوش متن چیست ؟
و یا
شرح اتفاقات آن روز :
چند مدتی بود که انجام یک سری از کارها رو فراموش میکردم . به همین دلیل همون شب تصمیم گرفتم که فردای همون روز یک NoteBook برای دسکتاپم دانلود کنم . و همه چیز از همینجا شروع شد ….
از اونجا که در Search ها به قدرت Google اعتقاد شدیدی دارم ، Google.com رو باز کردم و دقیقا اون چیزی رو که میخواستم تایپ کردم :
Download NoteBook On my Desktop
فکر میکنید نتیجه چی بود ؟ گوگل برای من گالری های متفاوتی از Laptop ها رو نمایش میداد!!! از طرفی گوگل حق داشت . شاید مشکل از من بود که گوگل رو زیادی باهوش فرض کرده بودم ! برای همین یک سری دسته بندی انجام دادم و با عبارت کلیدی “DesKtop Tools” جستجو رو ادامه دادم و خوشبختانه به نتیجه هم رسیدم. این قضیه چند بار دیگه هم تکرار شد. و من همچنان به این فکر کردم که چرا گوگل حرف من رو نمیفهمه؟!
مدتی گذشت تا اینکه با پدیده ی قدرتمند Data Mining ( داده کاوی) و زیر شاخه های مرتبط با اون Text Mining (کاوش متن) ، Web Mining (کاوش وب) ، Concept Mining ( کاوش مفهوم) و … بیشتر آشنا شدم.
در واقع Text mining یا متن کاوی در دهه ی ۱۹۸۰ متولد شد . و به عنوان یکی از داغ ترین مباحث در رشته ی Computer Science توی دانشگاه های دنیا مطرح میشه . البته بدون شک علمی نیست که از پیشرفت این فناوری قدرتمند بی بهره بمونه .
و پروژه هایی مثل Aura از شرکت مایکروسافت و WebFuantain از شرکت IBM جز اولین پروژه هایی بودند که بر اساس داده کاوی و متن کاوی اجرا شدند.. NetScan هم پروژه ی دیگری از مایکروسافت است که در واقع نسخه جدیدی از همان Aura است که برای انالیز آدرس های ایمیل ، حجم مطالب پست شده ، دریافت میزان محبوبیت مطالب موجود در سایت ها و در نتیجه سرچ بهتر برای کاربران طراحی شده است.
اما اینکه متن کاوی چطور میتونه انقدر مفید به نظر بیاد ؟
همانطور که در عکس بالا میبینید ، در ابتدا باید تمام اطلاعات و داده ها به فرمت Text تبدیل بشن . و بعد پردازش های مربوطه برای تحلیل مطالب روی اونها انجام بشه و در یک پایگاه داده ذخیره بشه. و بعد باید نتیجه ی اولیه نمایش داده بشه. این نتیجه گاهی اوقات میتونه خلاصه ای از همون متن اولیه که مورد تحلیل قرار گرفته ، باشه و در قسمت بهینه سازی ، نتیجه ی بدست آومده با دیگر مطالب مرتبط با مفهوم اولیه ترکیب میشه و در نهایت الگو و الگوریتمی از این چرخه به دست میاد . که ۴ مرحله آخر برای گرفتن نتیجه ی بهتر بارها و بارها تکرار میشه.
پس به زبان ساده میشه گفت یکی از معانی کاوش متن ، یعنی اینکه کامپیوتر معنای واقعی یک متن رو مثل انسان درک کند. بتونه اون عبارت یا جمله رو خلاصه کند و به قول دوپونت : “از اون هم بالاتر” ، حتی بتونه اون معنی رو با دیگر معانی مرتبط به هم ربط بده.
به عنوان مثال :
فرض کنید شما مدیر یک شرکت تجاری هستید و همیشه دوست دارید که از فعالیت رقبایتان با خبر باشید . اینجاست که متن کاوی به شما این اجازه رو میده که به طور اتوماتیک تغییرات جدید رو پیگیری کنید . در واقع آنچه اصولاً باید از متن کاوی انتظارداشته باشید اینه که به شما بگوید چه اخباری در میان حجم عظیمی از اخبار، به آنچه شما می خواهید مرتبط است و در این میان کدام خبر جدیداست، چه پیشرفتهایی در زمینه ی کاری شما صورت می گیرد و علایق و ترندهای فعلی چگونه است و با چه روندی تغییر می کند.
یا مثالی دیگه در علم پزشکی :
مثلا در یک مقاله علمی ذکر شده: ” که ویتامین C برای دردهای عضلانی مفید است” . در جای دیگری هم نوشته شده : ” برای بهبود سرماخوردگی از ویتامین C , D استفاده کنید” . و اینجاست که فناوری کاوش متن نتیجه ی نهایی را این چنین بیان میکند :
“ویتامین C در درمان دردهای عضلانی و بهبود سرماخوردگی مفید است “
البته در این زمینه نرم افزار هایی هم طراحی و اجرا شده اند مثل :
*AeroText
* Autonomy
* Endeca Technologies
* Expert System S.p.A
* Fair Isaac
* Inxight
* Pervasive Data Integrator
* RapidMiner/YALE
* SAS
* Information Management
که البته هنوز نسخه ی کارامدی طراحی نشده و نرم افزارهای موجود هنوز نتونستند مقصود اصلی رو عملی کنند.
مسلما هر نوع از تکنولوژی میتونه نقاط ضعفی هم داشته باشه .
دکتر مارتی هرست (Marti Hearst) هم در مقالش به مهمترین مشکل متن کاوی اشاره کرده و اون اینکه :
کاوش متن همیشه نمیتونه اطلاعات کامل و بدون نقصی در اختیار ما قرار بده . چون مسلما تمامی اطلاعات و اسناد معتبر در قالب متن نیستند . و خیلی از مستندات مهم در قالب سخنرانی ها ، فیلم ها و گزارشات تصویری … پنهان شده اند.
البته من کوچکتر از اونی هستم که بتونم قدرت واقعی این پدیده رو معرفی کنم . و بتونم یک رشته ی دانشگاهی رو در چند صفحه خلاصه کنم ، ولی امیدوارم در حد آشنایی مفید بوده باشه.
منبع :
Minaa.ir