متن كاوي ، استخراج دانش از پايگاه هاي داده غير ساختيافته - Artificial Intelligence

**Astaraki** · ۰۸-۱۲-۱۳۸۸, ۱۰:۳۰ قبل از ظهر

متن كاوي ، استخراج دانش از پايگاه هاي داده غير ساختيافته

با گسترش شگرف اينترنت و استفاده روزافزون از آن در جهت ارايه و يا كسب اطلاعات، شاهد حجم انبوهي از اسناد و مقالات بر- خط هستيم كه بعنوان يكي از مشخصات بارز زندگي مدرن امروزي، تحت عنوان افزونگي اطلاعاتي مطرح مي‌گردد. در اين ميان دسترسي سريع و صحيح به منابع مهم و مورد علاقه، يكي از دغدغه هاي استفاده كنندگان از اين منبع اطلاعاتي بسيار بزرگ است. آنچه امروزه از اهميت بسيار زيادي برخوردار گرديده ، كمبود يا نبود اطلاعات نيست بلكه كمبود روشهايي در جهت يافت و بهره برداري از اطلاعات در دسترس به نحوي بهينه است. بعنوان مسئله اي آرماني تر به دنبال روشهايي هستيم تا از اطلاعات موجود به كسب دانش پرداخته، احتمالاً به ارايه مسايل جديدي بپردازد كه قبل از آن مشخص نبوده است.
متن كاوي ، بعنوان روشي در استخراج دانش از متون، يكي از موضوعات مهم در گستره اي از اعمال مديريت اطلاعات است. در اين ميان آنچه از اهميت فوق العاده اي برخوردار است ارايه راه‌كارهايي براي مواجه با اين حجم عظيم اطلاعاتي و استفاده بهينه از اطلاعات در جهت خلق دانش، توليد سينرجي و در نهايت افزايش خرد جمعي است.
در سالهاي اخير اهميت متون به عنوان منابع با پتانسيل اطلاعاتي بسيار بالا به نحو گسترده‌اي مورد توجه قرار گرفته به طوري كه كشف دانش از متون به عنوان يكي از مهمترين فعاليتهاي محققين حوزه هوش مصنوعي و فناوري اطلاعات قرار گرفته است. تحقيقات بسياري صورت گرفته اما محدوده فعاليت بقدري گسترده است كه نيازمند توجه بيشتري مي‌باشد.
امروزه محققان به اين مسئله معترفند كه با وجود انجام تحقيقات بي وقفه در زمينه كاري خود، نمي‌توانند همزمان با پيشرفت دانش، معلومات خود را به روز نگاه دارند. بعنوان مثال بانك اطلاعاتي Medline در حال حاضر حاوي 10 ميليون چكيده مقاله است و هر هفته بين هفت تا هشت هزار چكيده مقاله به اين بانك اطلاعاتي افزوده مي‌شود. در اين بين شايد همه مقالات مربوط به يك دانش خاص نباشند، اما تعداد مقالات تخصصي كه در حوزه تحقيق يك دانش خاص قرار مي‌گيرد به اندازه اي است كه يك نفر نمي‌تواند ادعا كند همه آنها را مطالعه كرده است بعلاوه نقش مطالعات عميق و گسترده و استخراج ايده ها و دانش جديد از مطالب مطالعه شده بر كسي پوشيده نيست.
در اين ميان اينترنت بعنوان بزرگترين منبع اطلاعاتي همگاني، تشكيل يافته از صد ها ميليون صفحه اطلاعات است كه به جهت همگاني بودن آن و نبود آينده‌نگري كافي در زمان تشكيل و رشد آن ، متحمل نگاهداري اطلاعات نويسندگان، محققان ، انديشمندان و غيره به همان نحوي كه آنها مي نوشتند گرديد. نبود يك استاندارد همه جانبه و دقيق در تنظيم متون و قرار گيري اين مجموعه عظيم بصورتي غير ساختيافته و يا بعضاً نيمه ساختيافته، جامعه اطلاعاتي را دچار نوعي سردر گمي و مشكل در دستيابي به اطلاعات مورد نياز كرده بطوري‌كه براي يافتن مطالب مورد نظر خود متحمل هزينه هاي زماني بسياري مي‌گردند. محققان به ارايه راه كارهايي براي ساخت يافته كردن اطلاعات نمودند و با ارايه زبانهاي نشانه گذاري استاندارد نظير XML تا حد زيادي جلوي اين از هم پاشيدگي اطلاعاتي را گرفتند اما آنچه همچنان باقي است وجود بسياري از متون غير ساخت‌يافته مي‌باشد؛ در همين راستا ارايه ابزاهايي كه با بررسي متون بتوانند تحليلي روي آنها انجام دهند منجر به شكل گيري زمينه‌اي جديد در هوش مصنوعي و فناوري اطلاعات گرديده كه به يادگيري متن معروف است.
اين حوزه تمام فعاليتهايي كه به نوعي به دنبال كسب دانش از متن هستند را شامل مي‌گردد. آناليز داده هاي متني توسط تكنيكهاي يادگيري ماشين، بازيابي اطلاعات هوشمند، پردازش زبان طبيعي يا روشهاي مرتبط ديگر همگي در زمره مقوله يادگيري متن قرار مي‌گيرند. يكي از روشهايي كه ذكر گرديد، استفاده از تكنيكهاي يادگيري ماشين در زمينه پردازش متن است، مسئله قابل تامل اين است كه اين تكنيكها در ابتدا در مورد داده هاي ساخت‌يافته به كار گرفته شدند و علمي به نام داده كاوي را بوجود آوردند. داده هاي ساخت‌يافته به داده هايي اطلاق مي‌گردد كه بطور كاملاً مستقل از همديگر ولي يكسان از لحاظ ساختاري در يك محل گردآوري شده اند. انواع بانكهاي اطلاعاتي را مي‌توان نمونه هايي از اين دسته اطلاعات نام برد. در اينصورت مسئله داده كاوي عبارت از كسب اطلاعات و دانش از اين مجموعه ساخت يافته. اما در مورد متون كه عمدتاً غير ساخت يافته يا نيمه ساخت يافته هستند ابتدا بايد توسط روشهايي ، آنها را ساختارمند نمود و سپس از اين روشها براي استخراج اطلاعات و دانش از آنها استفاده كرد. به هر حال استفاده از داده كاوي در مورد متن خود شاخه اي ديگر را در علوم هوش مصنوعي بوجود آورد به نام متن كاوي . از جمله فعاليتهاي بسيار مهم در اين زمينه، طبقه بندي (دسته بندي) متن مي‌باشد.
طبقه بندي متن، يعني انتساب اسناد متني بر اساس محتوي به يك يا چند طبقه از قبل تعيين شده، يكي از مهمترين مسايل در متن كاوي است؛ مرتب كردن بلادرنگ نامه هاي الكترونيكي يا فايلها در سلسله مراتبي از پوشه ها، تشخيص موضوع متن، جستجوي ساختيافته و/ يا پيدا كردن اسنادي كه در راستاي علايق كاربر ميباشد، از جمله كاربردهاي مبحث طبقه بندي (دسته بندي-كلاسه بندي ) متن است. در بسياري از موارد ، افراد حرفه اي آموزش ديده، براي طبقه بندي متون جديد به كار گرفته مي‌شوند. اين فرآيند بسيار زمان بر و پر هزينه است و لذا كاربرد خود را محدود مي‌سازد، به همين منظور علاقه روزافزوني به توسعه فناوري هايي در دسته بندي خودكار متن ابراز ميشود.
در هر حال در جوامع اطلاعاتي امروزي آنچه از اهميت روزافزوني برخوردار است، اطلاعات و تبادل آن است و در اين راستا به توسعه فناوري هاي مرتبط پرداخته مي‌شود، اما يك مرحله كاملاٌ جديد تر و كاملاً مورد توجه جوامع فرا صنعتي، خلق دانش جديد از اطلاعات قبلي است كه اين جوامع آنرا كليد موفقيت خود در آينده دانسته و به سختي در اين زمينه فعاليت مي‌نمايند. بر ما است تا ضمن ارتقاي فناوري اطلاعات در كشور و ايجاد زير ساختهاي لازمه در اسرع وقت، به اينگونه مسائل جدي‌تر كه در زمره Information High Technology قرار مي‌گيرند، بپردازيم.