کدام الگوریتم داده کاوی برای پردازش تعداد زیادی متن؟ - Artificial Intelligence

senaps · ۱۲-۲۸-۱۳۹۴, ۰۳:۳۲ قبل از ظهر

سلام...
من تعداد زیادی فایل پی‌دی‌اف رو در یک داده ذخیره شده دارم...(زبان پایتون)

حالا میخوام یه سری نتیجه گیری به دست بیارم:

۱- کلماتی که بیشترین تعداد تکرار رو داشتن...
۲- شهرهایی که بیشترین تکرار رو داشتن
۳- اسم‌هایی که بیشترین تکرار رو داشتن

رو پیدا کنم...
خوب، برای پیدا کردن اسم شهر‌ و اسم افراد در بین این متن‌ها روش بخصوصی وجود داره؟؟؟(متن ها شامل حدود ۱۰۰ نامه هستن به زبان انگلیسی!)...

برای مورد اول، خود زبان پایتون هم گزینه هایی رو در اختیار قرار میده. ایا این بحث‌ به طور کلی در زمینه داده کاوی قرار میگیره یا نه؟؟

بحثم و تمرکزم بیشتر entity extraction هستش... یه الگوریتم ساده که با این کاری که من میخوام بکنم همخوانی داشته باشه!!!
شاید کل کارش این باشه که یه متن گنده مثلا ۱۰۰۰ صفحه‌ای بهش بدم و این الگوریتم صرفا برام کلمات و تعداد تکرارشون رو مشخص کنه و در نهایت کلمات با بیشترین تکرار رو نشون بده بهم.... مثلا ۳۰ کلمه با بیشترین تکرار یا چیزی مثل اون؟ (قطعا کلماتی مثل the و امثالهم بیشرین تکرار رو خواهند داشت

)