نمايش پست تنها
قديمي ۱۲-۲۸-۱۳۹۴, ۰۳:۳۲ قبل از ظهر   #1 (لینک دائم)
senaps Male
عضو جدید
 
آواتار senaps
 
تاريخ عضويت: اسفند ۱۳۹۴
پست ها: 1
تشكرها: 0
0 تشكر در 0 پست
پيش فرض کدام الگوریتم داده کاوی برای پردازش تعداد زیادی متن؟

سلام...
من تعداد زیادی فایل پی‌دی‌اف رو در یک داده ذخیره شده دارم...(زبان پایتون)

حالا میخوام یه سری نتیجه گیری به دست بیارم:

۱- کلماتی که بیشترین تعداد تکرار رو داشتن...
۲- شهرهایی که بیشترین تکرار رو داشتن
۳- اسم‌هایی که بیشترین تکرار رو داشتن

رو پیدا کنم...
خوب، برای پیدا کردن اسم شهر‌ و اسم افراد در بین این متن‌ها روش بخصوصی وجود داره؟؟؟(متن ها شامل حدود ۱۰۰ نامه هستن به زبان انگلیسی!)...

برای مورد اول، خود زبان پایتون هم گزینه هایی رو در اختیار قرار میده. ایا این بحث‌ به طور کلی در زمینه داده کاوی قرار میگیره یا نه؟؟

بحثم و تمرکزم بیشتر entity extraction هستش... یه الگوریتم ساده که با این کاری که من میخوام بکنم همخوانی داشته باشه!!!
شاید کل کارش این باشه که یه متن گنده مثلا ۱۰۰۰ صفحه‌ای بهش بدم و این الگوریتم صرفا برام کلمات و تعداد تکرارشون رو مشخص کنه و در نهایت کلمات با بیشترین تکرار رو نشون بده بهم.... مثلا ۳۰ کلمه با بیشترین تکرار یا چیزی مثل اون؟ (قطعا کلماتی مثل the و امثالهم بیشرین تکرار رو خواهند داشت )
senaps آفلاين است   پاسخ با نقل قول

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online