Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > داده کاوی > پردازش و کاوش متن( Text Mining and processing )


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۸-۱۲-۱۳۸۸, ۱۰:۳۰ قبل از ظهر   #1 (لینک دائم)
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Question متن كاوي ، استخراج دانش از پايگاه هاي داده غير ساختيافته

متن كاوي ، استخراج دانش از پايگاه هاي داده غير ساختيافته

با گسترش شگرف اينترنت و استفاده روزافزون از آن در جهت ارايه و يا كسب اطلاعات، شاهد حجم انبوهي از اسناد و مقالات بر- خط هستيم كه بعنوان يكي از مشخصات بارز زندگي مدرن امروزي، تحت عنوان افزونگي اطلاعاتي مطرح مي‌گردد. در اين ميان دسترسي سريع و صحيح به منابع مهم و مورد علاقه، يكي از دغدغه هاي استفاده كنندگان از اين منبع اطلاعاتي بسيار بزرگ است. آنچه امروزه از اهميت بسيار زيادي برخوردار گرديده ، كمبود يا نبود اطلاعات نيست بلكه كمبود روشهايي در جهت يافت و بهره برداري از اطلاعات در دسترس به نحوي بهينه است. بعنوان مسئله اي آرماني تر به دنبال روشهايي هستيم تا از اطلاعات موجود به كسب دانش پرداخته، احتمالاً به ارايه مسايل جديدي بپردازد كه قبل از آن مشخص نبوده است.
متن كاوي ، بعنوان روشي در استخراج دانش از متون، يكي از موضوعات مهم در گستره اي از اعمال مديريت اطلاعات است. در اين ميان آنچه از اهميت فوق العاده اي برخوردار است ارايه راه‌كارهايي براي مواجه با اين حجم عظيم اطلاعاتي و استفاده بهينه از اطلاعات در جهت خلق دانش، توليد سينرجي و در نهايت افزايش خرد جمعي است.
در سالهاي اخير اهميت متون به عنوان منابع با پتانسيل اطلاعاتي بسيار بالا به نحو گسترده‌اي مورد توجه قرار گرفته به طوري كه كشف دانش از متون به عنوان يكي از مهمترين فعاليتهاي محققين حوزه هوش مصنوعي و فناوري اطلاعات قرار گرفته است. تحقيقات بسياري صورت گرفته اما محدوده فعاليت بقدري گسترده است كه نيازمند توجه بيشتري مي‌باشد.
امروزه محققان به اين مسئله معترفند كه با وجود انجام تحقيقات بي وقفه در زمينه كاري خود، نمي‌توانند همزمان با پيشرفت دانش، معلومات خود را به روز نگاه دارند. بعنوان مثال بانك اطلاعاتي Medline در حال حاضر حاوي 10 ميليون چكيده مقاله است و هر هفته بين هفت تا هشت هزار چكيده مقاله به اين بانك اطلاعاتي افزوده مي‌شود. در اين بين شايد همه مقالات مربوط به يك دانش خاص نباشند، اما تعداد مقالات تخصصي كه در حوزه تحقيق يك دانش خاص قرار مي‌گيرد به اندازه اي است كه يك نفر نمي‌تواند ادعا كند همه آنها را مطالعه كرده است بعلاوه نقش مطالعات عميق و گسترده و استخراج ايده ها و دانش جديد از مطالب مطالعه شده بر كسي پوشيده نيست.
در اين ميان اينترنت بعنوان بزرگترين منبع اطلاعاتي همگاني، تشكيل يافته از صد ها ميليون صفحه اطلاعات است كه به جهت همگاني بودن آن و نبود آينده‌نگري كافي در زمان تشكيل و رشد آن ، متحمل نگاهداري اطلاعات نويسندگان، محققان ، انديشمندان و غيره به همان نحوي كه آنها مي نوشتند گرديد. نبود يك استاندارد همه جانبه و دقيق در تنظيم متون و قرار گيري اين مجموعه عظيم بصورتي غير ساختيافته و يا بعضاً نيمه ساختيافته، جامعه اطلاعاتي را دچار نوعي سردر گمي و مشكل در دستيابي به اطلاعات مورد نياز كرده بطوري‌كه براي يافتن مطالب مورد نظر خود متحمل هزينه هاي زماني بسياري مي‌گردند. محققان به ارايه راه كارهايي براي ساخت يافته كردن اطلاعات نمودند و با ارايه زبانهاي نشانه گذاري استاندارد نظير XML تا حد زيادي جلوي اين از هم پاشيدگي اطلاعاتي را گرفتند اما آنچه همچنان باقي است وجود بسياري از متون غير ساخت‌يافته مي‌باشد؛ در همين راستا ارايه ابزاهايي كه با بررسي متون بتوانند تحليلي روي آنها انجام دهند منجر به شكل گيري زمينه‌اي جديد در هوش مصنوعي و فناوري اطلاعات گرديده كه به يادگيري متن معروف است.
اين حوزه تمام فعاليتهايي كه به نوعي به دنبال كسب دانش از متن هستند را شامل مي‌گردد. آناليز داده هاي متني توسط تكنيكهاي يادگيري ماشين، بازيابي اطلاعات هوشمند، پردازش زبان طبيعي يا روشهاي مرتبط ديگر همگي در زمره مقوله يادگيري متن قرار مي‌گيرند. يكي از روشهايي كه ذكر گرديد، استفاده از تكنيكهاي يادگيري ماشين در زمينه پردازش متن است، مسئله قابل تامل اين است كه اين تكنيكها در ابتدا در مورد داده هاي ساخت‌يافته به كار گرفته شدند و علمي به نام داده كاوي را بوجود آوردند. داده هاي ساخت‌يافته به داده هايي اطلاق مي‌گردد كه بطور كاملاً مستقل از همديگر ولي يكسان از لحاظ ساختاري در يك محل گردآوري شده اند. انواع بانكهاي اطلاعاتي را مي‌توان نمونه هايي از اين دسته اطلاعات نام برد. در اينصورت مسئله داده كاوي عبارت از كسب اطلاعات و دانش از اين مجموعه ساخت يافته. اما در مورد متون كه عمدتاً غير ساخت يافته يا نيمه ساخت يافته هستند ابتدا بايد توسط روشهايي ، آنها را ساختارمند نمود و سپس از اين روشها براي استخراج اطلاعات و دانش از آنها استفاده كرد. به هر حال استفاده از داده كاوي در مورد متن خود شاخه اي ديگر را در علوم هوش مصنوعي بوجود آورد به نام متن كاوي . از جمله فعاليتهاي بسيار مهم در اين زمينه، طبقه بندي (دسته بندي) متن مي‌باشد.
طبقه بندي متن، يعني انتساب اسناد متني بر اساس محتوي به يك يا چند طبقه از قبل تعيين شده، يكي از مهمترين مسايل در متن كاوي است؛ مرتب كردن بلادرنگ نامه هاي الكترونيكي يا فايلها در سلسله مراتبي از پوشه ها، تشخيص موضوع متن، جستجوي ساختيافته و/ يا پيدا كردن اسنادي كه در راستاي علايق كاربر ميباشد، از جمله كاربردهاي مبحث طبقه بندي (دسته بندي-كلاسه بندي ) متن است. در بسياري از موارد ، افراد حرفه اي آموزش ديده، براي طبقه بندي متون جديد به كار گرفته مي‌شوند. اين فرآيند بسيار زمان بر و پر هزينه است و لذا كاربرد خود را محدود مي‌سازد، به همين منظور علاقه روزافزوني به توسعه فناوري هايي در دسته بندي خودكار متن ابراز ميشود.
در هر حال در جوامع اطلاعاتي امروزي آنچه از اهميت روزافزوني برخوردار است، اطلاعات و تبادل آن است و در اين راستا به توسعه فناوري هاي مرتبط پرداخته مي‌شود، اما يك مرحله كاملاٌ جديد تر و كاملاً مورد توجه جوامع فرا صنعتي، خلق دانش جديد از اطلاعات قبلي است كه اين جوامع آنرا كليد موفقيت خود در آينده دانسته و به سختي در اين زمينه فعاليت مي‌نمايند. بر ما است تا ضمن ارتقاي فناوري اطلاعات در كشور و ايجاد زير ساختهاي لازمه در اسرع وقت، به اينگونه مسائل جدي‌تر كه در زمره Information High Technology قرار مي‌گيرند، بپردازيم.
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده اند:
shokouh (۰۷-۱۵-۱۳۸۹), ya zahra (۰۹-۲-۱۳۸۸)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
پاسخ



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۹:۲۵ بعد از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design