سلام دوستان
همانطور که می دونید در اغلب الگوریتم های متن کاوی از قبیل دسته بندی هر سند متنی به صورت کیسه ای از لغات (bag-of-word) نمایش داده می شود و در نهایت این طرز نمایش هم به صورت بردارهای عددی به الگوریتم داده می شود.
منظورم از بردار عددی چیزی مثل مثال زیر است:
label feature1:wheight1 feature2:wheight2
lable : برچسب سند
feature i : خصیصه i
wheight i : وزن خصیصه i در سند
هر سه عدد هستند. خصیصه ها در ساده ترین حالت کلمات داخل اسناد و وزن فراوانی هر کدام است.
آیا ابزاری برای تبدیل اسناد متنی انگلیسی که هر کدام یک فایل txt هستند به این فرمت را سراغ دارید.
البته من دو تا ابزار txt2bow و bow toolkit را پیدا کردم. اولی جواب نداد و دومی را هم نتونستم اجرا کنم.