Artificial Intelligence - هوش مصنوعی

Artificial Intelligence - هوش مصنوعی (http://artificial.ir/intelligence/)
-   پردازش و کاوش متن( Text Mining and processing ) (http://artificial.ir/intelligence/forum17.html)
-   -   متن کاوی یا Text Minig (http://artificial.ir/intelligence/thread94.html)

Mina ۰۶-۲۳-۱۳۸۷ ۰۱:۳۱ بعد از ظهر

متن کاوی یا Text Minig
 
کاوش متن چیست ؟
و یا
شرح اتفاقات آن روز :


چند مدتی بود که انجام یک سری از کارها رو فراموش میکردم . به همین دلیل همون شب تصمیم گرفتم که فردای همون روز یک NoteBook برای دسکتاپم دانلود کنم . و همه چیز از همینجا شروع شد ….

از اونجا که در Search ها به قدرت Google اعتقاد شدیدی دارم ، Google.com رو باز کردم و دقیقا اون چیزی رو که میخواستم تایپ کردم :

Download NoteBook On my Desktop

فکر میکنید نتیجه چی بود ؟ گوگل برای من گالری های متفاوتی از Laptop ها رو نمایش میداد!!! از طرفی گوگل حق داشت . شاید مشکل از من بود که گوگل رو زیادی باهوش فرض کرده بودم ! برای همین یک سری دسته بندی انجام دادم و با عبارت کلیدی “DesKtop Tools” جستجو رو ادامه دادم و خوشبختانه به نتیجه هم رسیدم. این قضیه چند بار دیگه هم تکرار شد. و من همچنان به این فکر کردم که چرا گوگل حرف من رو نمیفهمه؟!

مدتی گذشت تا اینکه با پدیده ی قدرتمند Data Mining ( داده کاوی) و زیر شاخه های مرتبط با اون Text Mining (کاوش متن) ، Web Mining (کاوش وب) ، Concept Mining ( کاوش مفهوم) و … بیشتر آشنا شدم.

http://minaa.ir/wp-content/uploads/2008/09/1.jpg

در واقع Text mining یا متن کاوی در دهه ی ۱۹۸۰ متولد شد . و به عنوان یکی از داغ ترین مباحث در رشته ی Computer Science توی دانشگاه های دنیا مطرح میشه . البته بدون شک علمی نیست که از پیشرفت این فناوری قدرتمند بی بهره بمونه .

و پروژه هایی مثل Aura از شرکت مایکروسافت و WebFuantain از شرکت IBM جز اولین پروژه هایی بودند که بر اساس داده کاوی و متن کاوی اجرا شدند.. NetScan هم پروژه ی دیگری از مایکروسافت است که در واقع نسخه جدیدی از همان Aura است که برای انالیز آدرس های ایمیل ، حجم مطالب پست شده ، دریافت میزان محبوبیت مطالب موجود در سایت ها و در نتیجه سرچ بهتر برای کاربران طراحی شده است.

اما اینکه متن کاوی چطور میتونه انقدر مفید به نظر بیاد ؟

http://minaa.ir/wp-content/uploads/2008/09/chart.jpg

همانطور که در عکس بالا میبینید ، در ابتدا باید تمام اطلاعات و داده ها به فرمت Text تبدیل بشن . و بعد پردازش های مربوطه برای تحلیل مطالب روی اونها انجام بشه و در یک پایگاه داده ذخیره بشه. و بعد باید نتیجه ی اولیه نمایش داده بشه. این نتیجه گاهی اوقات میتونه خلاصه ای از همون متن اولیه که مورد تحلیل قرار گرفته ، باشه و در قسمت بهینه سازی ، نتیجه ی بدست آومده با دیگر مطالب مرتبط با مفهوم اولیه ترکیب میشه و در نهایت الگو و الگوریتمی از این چرخه به دست میاد . که ۴ مرحله آخر برای گرفتن نتیجه ی بهتر بارها و بارها تکرار میشه.

پس به زبان ساده میشه گفت یکی از معانی کاوش متن ، یعنی اینکه کامپیوتر معنای واقعی یک متن رو مثل انسان درک کند. بتونه اون عبارت یا جمله رو خلاصه کند و به قول دوپونت : “از اون هم بالاتر” ، حتی بتونه اون معنی رو با دیگر معانی مرتبط به هم ربط بده.

به عنوان مثال :

فرض کنید شما مدیر یک شرکت تجاری هستید و همیشه دوست دارید که از فعالیت رقبایتان با خبر باشید . اینجاست که متن کاوی به شما این اجازه رو میده که به طور اتوماتیک تغییرات جدید رو پیگیری کنید . در واقع آنچه اصولاً باید از متن کاوی انتظارداشته باشید اینه که به شما بگوید چه اخباری در میان حجم عظیمی از اخبار، به آنچه شما می خواهید مرتبط است و در این میان کدام خبر جدیداست، چه پیشرفتهایی در زمینه ی کاری شما صورت می گیرد و علایق و ترندهای فعلی چگونه است و با چه روندی تغییر می کند.

یا مثالی دیگه در علم پزشکی :

مثلا در یک مقاله علمی ذکر شده: ” که ویتامین C برای دردهای عضلانی مفید است” . در جای دیگری هم نوشته شده : ” برای بهبود سرماخوردگی از ویتامین C , D استفاده کنید” . و اینجاست که فناوری کاوش متن نتیجه ی نهایی را این چنین بیان میکند :
“ویتامین C در درمان دردهای عضلانی و بهبود سرماخوردگی مفید است “

البته در این زمینه نرم افزار هایی هم طراحی و اجرا شده اند مثل :

*AeroText
* Autonomy
* Endeca Technologies
* Expert System S.p.A
* Fair Isaac
* Inxight
* Pervasive Data Integrator
* RapidMiner/YALE
* SAS
* Information Management

که البته هنوز نسخه ی کارامدی طراحی نشده و نرم افزارهای موجود هنوز نتونستند مقصود اصلی رو عملی کنند.

مسلما هر نوع از تکنولوژی میتونه نقاط ضعفی هم داشته باشه . دکتر مارتی هرست (Marti Hearst) هم در مقالش به مهمترین مشکل متن کاوی اشاره کرده و اون اینکه :

کاوش متن همیشه نمیتونه اطلاعات کامل و بدون نقصی در اختیار ما قرار بده . چون مسلما تمامی اطلاعات و اسناد معتبر در قالب متن نیستند . و خیلی از مستندات مهم در قالب سخنرانی ها ، فیلم ها و گزارشات تصویری … پنهان شده اند.

البته من کوچکتر از اونی هستم که بتونم قدرت واقعی این پدیده رو معرفی کنم . و بتونم یک رشته ی دانشگاهی رو در چند صفحه خلاصه کنم ، ولی امیدوارم در حد آشنایی مفید بوده باشه.

منبع : Minaa.ir

rezvan joon ۰۱-۲۷-۱۳۸۸ ۰۹:۴۱ قبل از ظهر

salam matlabi ke dar morede text mining to in sit hastesh mofide ama vase ereeye yek proje khayli kame mise khahesh konam matlabe bishtari dar morede text minig to sit bezarin mamnoon misham


زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۲:۴۴ بعد از ظهر ميباشد.

Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.