سلام...
من تعداد زیادی فایل پیدیاف رو در یک داده ذخیره شده دارم...(زبان پایتون)
حالا میخوام یه سری نتیجه گیری به دست بیارم:
۱- کلماتی که بیشترین تعداد تکرار رو داشتن...
۲- شهرهایی که بیشترین تکرار رو داشتن
۳- اسمهایی که بیشترین تکرار رو داشتن
رو پیدا کنم...
خوب، برای پیدا کردن اسم شهر و اسم افراد در بین این متنها روش بخصوصی وجود داره؟؟؟(متن ها شامل حدود ۱۰۰ نامه هستن به زبان انگلیسی!)...
برای مورد اول، خود زبان پایتون هم گزینه هایی رو در اختیار قرار میده. ایا این بحث به طور کلی در زمینه داده کاوی قرار میگیره یا نه؟؟
بحثم و تمرکزم بیشتر entity extraction هستش... یه الگوریتم ساده که با این کاری که من میخوام بکنم همخوانی داشته باشه!!!
شاید کل کارش این باشه که یه متن گنده مثلا ۱۰۰۰ صفحهای بهش بدم و این الگوریتم صرفا برام کلمات و تعداد تکرارشون رو مشخص کنه و در نهایت کلمات با بیشترین تکرار رو نشون بده بهم.... مثلا ۳۰ کلمه با بیشترین تکرار یا چیزی مثل اون؟ (قطعا کلماتی مثل the و امثالهم بیشرین تکرار رو خواهند داشت
)