یک دیکشنری (پایگاه داده منظورمه) از کلمات فارسی می خواستم کوچک و بزرگ بودنش زیاد واسم مهم نیست یعنی جامع بودن زیاد واسم مهم نیست بهمراه طریقه ی تلفظش می خواستم سریع اگر کسی میشناسه لطف کنه بگه ممنون هستم.
سلام.
پیشنهاد می کنم یه نگاهی به پروژه «واژگان زایا» انجام شده در شورای عالی اطلاع رسانی بندازید.
یکی از فعالیتهای صورت گرفته در این پروژه، تولید پایگاه داده کلمات فارسی به همراه صورت واجی اونهاست. در ادامه چند مورد از کلمات موجود در این پایگاه داده رو براتون گذاشتم. امیدوارم که براتون مفید باشه.
خواهش میکنم
این پایگاه داده دو نسخه تحت ویندوز و تحت لینوکس داره. نسخه تحت ویندوز یه فایل access هستش و نسخه تحت لینوکس (تا اونجایی که یادمه) برای استفاده در mysql تهیه شده. یه فایل متنیه که با استفاده از اون میتونید به راحتی جداول رو بسازید و داده ها رو در جداول insert کنید. شما اگه بخوای از این فایل استفاده کنی میتونی به راحتی با یک سری پردازش ساده، متون اضافی رو حذف کنی و فقط کلمات و صورت واجی اونها رو نگه داری. اگر هم بخوای از نسخه تحت ویندوز استفاده کنی که دیگه مشکلی نیست و به راحتی قابل استفاده اس.
موفق باشی و در پناه حضرت حق
بله
خودشه. البته این پروژه در حقیقت یک تحلیل گر صرفی (تکواژشناختی) زبان فارسی هم محسوب میشه. به عبارت دیگه یک نرم افزار هم در این پروژه توسعه داده شده که با استفاده از این پایگاه داده، وظیفه تحلیل صرفی کلمات فارسی رو هم انجام میده. شما با دانلود بسته ای که در لینک بالا قرار داره هم به اون نرم افزار دسترسی خواهید داشت و هم به پایگاه داده واژگان (برای هر دو بستر ویندوز و لینوکس).
در مقاله ای که من می خوام پیاده سازی کنم اومده که از Webster's Pocket Dictionary استفاده کرده کسی آشنایی داره بااین دیکشنری ?
در حالیکه ساختار مقاله به گونه ای هست که پایگاه داده کلمات فارسی بهمراه تلفظشونه و گفته از دیکشنری بالا استفاده شده! چطوریه به نظرتون؟
من دانلود کردم و فقط همین پایگاه داده رو دیدم
flexicon.mdb
که پیشوند و پسوند هست اکثرا و خیلی کم توش کلمه ای پیدا میشه! و این کلمات مثالی شما اصلا توش نیست.
نقل قول:
نوشته اصلي بوسيله aminfarajian
سلام.
پیشنهاد می کنم یه نگاهی به پروژه «واژگان زایا» انجام شده در شورای عالی اطلاع رسانی بندازید.
یکی از فعالیتهای صورت گرفته در این پروژه، تولید پایگاه داده کلمات فارسی به همراه صورت واجی اونهاست. در ادامه چند مورد از کلمات موجود در این پایگاه داده رو براتون گذاشتم. امیدوارم که براتون مفید باشه.
عجیبه.
من همین فایل رو دانلود کردم. توی پوشه source، پوشه Linux یه پوشه هست به اسم ttpdb که دو تا فایل داخل اون هست: Define.txt که برای ساخت جداول و فیلدهای اونها استفاده میشه و فایل Data.txt که تمامی اطلاعات مورد نظر در این فایل هست. یه چیزی در حدود ۵۴ هزار رکورد داره که اولی هاش پسوندها و پیشوندها هستن ولی پایین تر که میرید می بینید سایر کلمات رو هم داره. در ضمن برچسب های نحوی این کلمات رو هم به همراه یه سری اطلاعات مفید دیگه در خصوص هر کلمه میتونید جلوی هر کلمه ببینید. این در خصوص نسخه لینوکسی.
اما با توجه به این که من در حال حاضر دسترسی به ویندوز ندارم متاسفانه نمیتونم محتویات فایل FLEXICON.MDB رو ببینم. اما این رو مطمئنم که توی این فایل چندتا جدول بود که یکیش واسه پسوندها و پیشوندها بود، یکیش واسه اطلاعات و توضیحات برچسبها، یکیش واسه کلمات و چندتا جدول دیگه که من الان یادم نمیاد.
اگر این فایل رو با access باز کنید حتما جدول ها رو میتونید ببینید.