نمايش پست تنها
قديمي ۰۶-۲۳-۱۳۸۷, ۰۱:۳۱ بعد از ظهر   #1 (لینک دائم)
Mina Female
Active users
 
آواتار Mina
 
تاريخ عضويت: ارديبهشت ۱۳۸۷
محل سكونت: فعلا همینجا > ایران
پست ها: 24
تشكرها: 2
192 تشكر در 23 پست
ارسال پيغام Yahoo به Mina
Arrow متن کاوی یا Text Minig

کاوش متن چیست ؟
و یا
شرح اتفاقات آن روز :


چند مدتی بود که انجام یک سری از کارها رو فراموش میکردم . به همین دلیل همون شب تصمیم گرفتم که فردای همون روز یک NoteBook برای دسکتاپم دانلود کنم . و همه چیز از همینجا شروع شد ….

از اونجا که در Search ها به قدرت Google اعتقاد شدیدی دارم ، Google.com رو باز کردم و دقیقا اون چیزی رو که میخواستم تایپ کردم :

Download NoteBook On my Desktop

فکر میکنید نتیجه چی بود ؟ گوگل برای من گالری های متفاوتی از Laptop ها رو نمایش میداد!!! از طرفی گوگل حق داشت . شاید مشکل از من بود که گوگل رو زیادی باهوش فرض کرده بودم ! برای همین یک سری دسته بندی انجام دادم و با عبارت کلیدی “DesKtop Tools” جستجو رو ادامه دادم و خوشبختانه به نتیجه هم رسیدم. این قضیه چند بار دیگه هم تکرار شد. و من همچنان به این فکر کردم که چرا گوگل حرف من رو نمیفهمه؟!

مدتی گذشت تا اینکه با پدیده ی قدرتمند Data Mining ( داده کاوی) و زیر شاخه های مرتبط با اون Text Mining (کاوش متن) ، Web Mining (کاوش وب) ، Concept Mining ( کاوش مفهوم) و … بیشتر آشنا شدم.



در واقع Text mining یا متن کاوی در دهه ی ۱۹۸۰ متولد شد . و به عنوان یکی از داغ ترین مباحث در رشته ی Computer Science توی دانشگاه های دنیا مطرح میشه . البته بدون شک علمی نیست که از پیشرفت این فناوری قدرتمند بی بهره بمونه .

و پروژه هایی مثل Aura از شرکت مایکروسافت و WebFuantain از شرکت IBM جز اولین پروژه هایی بودند که بر اساس داده کاوی و متن کاوی اجرا شدند.. NetScan هم پروژه ی دیگری از مایکروسافت است که در واقع نسخه جدیدی از همان Aura است که برای انالیز آدرس های ایمیل ، حجم مطالب پست شده ، دریافت میزان محبوبیت مطالب موجود در سایت ها و در نتیجه سرچ بهتر برای کاربران طراحی شده است.

اما اینکه متن کاوی چطور میتونه انقدر مفید به نظر بیاد ؟



همانطور که در عکس بالا میبینید ، در ابتدا باید تمام اطلاعات و داده ها به فرمت Text تبدیل بشن . و بعد پردازش های مربوطه برای تحلیل مطالب روی اونها انجام بشه و در یک پایگاه داده ذخیره بشه. و بعد باید نتیجه ی اولیه نمایش داده بشه. این نتیجه گاهی اوقات میتونه خلاصه ای از همون متن اولیه که مورد تحلیل قرار گرفته ، باشه و در قسمت بهینه سازی ، نتیجه ی بدست آومده با دیگر مطالب مرتبط با مفهوم اولیه ترکیب میشه و در نهایت الگو و الگوریتمی از این چرخه به دست میاد . که ۴ مرحله آخر برای گرفتن نتیجه ی بهتر بارها و بارها تکرار میشه.

پس به زبان ساده میشه گفت یکی از معانی کاوش متن ، یعنی اینکه کامپیوتر معنای واقعی یک متن رو مثل انسان درک کند. بتونه اون عبارت یا جمله رو خلاصه کند و به قول دوپونت : “از اون هم بالاتر” ، حتی بتونه اون معنی رو با دیگر معانی مرتبط به هم ربط بده.

به عنوان مثال :

فرض کنید شما مدیر یک شرکت تجاری هستید و همیشه دوست دارید که از فعالیت رقبایتان با خبر باشید . اینجاست که متن کاوی به شما این اجازه رو میده که به طور اتوماتیک تغییرات جدید رو پیگیری کنید . در واقع آنچه اصولاً باید از متن کاوی انتظارداشته باشید اینه که به شما بگوید چه اخباری در میان حجم عظیمی از اخبار، به آنچه شما می خواهید مرتبط است و در این میان کدام خبر جدیداست، چه پیشرفتهایی در زمینه ی کاری شما صورت می گیرد و علایق و ترندهای فعلی چگونه است و با چه روندی تغییر می کند.

یا مثالی دیگه در علم پزشکی :

مثلا در یک مقاله علمی ذکر شده: ” که ویتامین C برای دردهای عضلانی مفید است” . در جای دیگری هم نوشته شده : ” برای بهبود سرماخوردگی از ویتامین C , D استفاده کنید” . و اینجاست که فناوری کاوش متن نتیجه ی نهایی را این چنین بیان میکند :
“ویتامین C در درمان دردهای عضلانی و بهبود سرماخوردگی مفید است “

البته در این زمینه نرم افزار هایی هم طراحی و اجرا شده اند مثل :

*AeroText
* Autonomy
* Endeca Technologies
* Expert System S.p.A
* Fair Isaac
* Inxight
* Pervasive Data Integrator
* RapidMiner/YALE
* SAS
* Information Management

که البته هنوز نسخه ی کارامدی طراحی نشده و نرم افزارهای موجود هنوز نتونستند مقصود اصلی رو عملی کنند.

مسلما هر نوع از تکنولوژی میتونه نقاط ضعفی هم داشته باشه . دکتر مارتی هرست (Marti Hearst) هم در مقالش به مهمترین مشکل متن کاوی اشاره کرده و اون اینکه :

کاوش متن همیشه نمیتونه اطلاعات کامل و بدون نقصی در اختیار ما قرار بده . چون مسلما تمامی اطلاعات و اسناد معتبر در قالب متن نیستند . و خیلی از مستندات مهم در قالب سخنرانی ها ، فیلم ها و گزارشات تصویری … پنهان شده اند.

البته من کوچکتر از اونی هستم که بتونم قدرت واقعی این پدیده رو معرفی کنم . و بتونم یک رشته ی دانشگاهی رو در چند صفحه خلاصه کنم ، ولی امیدوارم در حد آشنایی مفید بوده باشه.

منبع : Minaa.ir
Mina آفلاين است   پاسخ با نقل قول
از Mina تشكر كرده اند:
firethumbs (۰۴-۲۴-۱۳۹۲), n.zamani220 (۰۱-۲۴-۱۳۹۴), Sayafan (۱۰-۷-۱۳۸۸), sorenablue (۰۸-۳-۱۳۹۰)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online