Artificial Intelligence - هوش مصنوعی

Artificial Intelligence - هوش مصنوعی (http://artificial.ir/intelligence/)
-   داده كاوی(Data mining) (http://artificial.ir/intelligence/forum61.html)
-   -   کدام الگوریتم داده کاوی برای پردازش تعداد زیادی متن؟ (http://artificial.ir/intelligence/thread14211.html)

senaps ۱۲-۲۸-۱۳۹۴ ۰۳:۳۲ قبل از ظهر

کدام الگوریتم داده کاوی برای پردازش تعداد زیادی متن؟
 
سلام...
من تعداد زیادی فایل پی‌دی‌اف رو در یک داده ذخیره شده دارم...(زبان پایتون)

حالا میخوام یه سری نتیجه گیری به دست بیارم:

۱- کلماتی که بیشترین تعداد تکرار رو داشتن...
۲- شهرهایی که بیشترین تکرار رو داشتن
۳- اسم‌هایی که بیشترین تکرار رو داشتن

رو پیدا کنم...
خوب، برای پیدا کردن اسم شهر‌ و اسم افراد در بین این متن‌ها روش بخصوصی وجود داره؟؟؟(متن ها شامل حدود ۱۰۰ نامه هستن به زبان انگلیسی!)...

برای مورد اول، خود زبان پایتون هم گزینه هایی رو در اختیار قرار میده. ایا این بحث‌ به طور کلی در زمینه داده کاوی قرار میگیره یا نه؟؟

بحثم و تمرکزم بیشتر entity extraction هستش... یه الگوریتم ساده که با این کاری که من میخوام بکنم همخوانی داشته باشه!!!
شاید کل کارش این باشه که یه متن گنده مثلا ۱۰۰۰ صفحه‌ای بهش بدم و این الگوریتم صرفا برام کلمات و تعداد تکرارشون رو مشخص کنه و در نهایت کلمات با بیشترین تکرار رو نشون بده بهم.... مثلا ۳۰ کلمه با بیشترین تکرار یا چیزی مثل اون؟ (قطعا کلماتی مثل the و امثالهم بیشرین تکرار رو خواهند داشت :( )


زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۷:۴۰ قبل از ظهر ميباشد.

Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.