نمايش پست تنها
قديمي ۰۷-۲۴-۱۳۹۲, ۱۲:۱۵ بعد از ظهر   #4 (لینک دائم)
raha_hakhamanesh Male
Super Moderator
 
آواتار raha_hakhamanesh
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: دنیا
پست ها: 281
تشكرها: 28
253 تشكر در 147 پست
My Mood: Zodranj
پيش فرض

نقل قول:
نوشته اصلي بوسيله hoseinkord نمايش پست
با سلام وتشکر...فکر کنم من مطلب رو بد بیان کردم ....منظور این است که مطالب یک سایت رو اسکن کنیم و تشخیص بدیم زبان سایت فارسی هست یا اردو یا عربی با توجه به مشابه بودن زبان ها....تعیین کردن charset در هر سه نوع سایت فقط به صورت charset =utf-8 تعیین میشه و معمولا زبان سایت رو تعیین نمی کنند (درصد خیلی پایینی تعیین میکنند) .
در واقع یه چیزی شبیه به google translater که زبان سایت رو تشخیص میده (detect language)..
اون دوتا لینکی هم که دادید از اونجایی که با برنامه نویسی جوملا هم کار کردم...اولی با استفاده از JFactory::getLanguage(); زبان سایت رو که از بخش مدیریت تعیین شده تشخیص میده ...دومی هم که در واقع تشخیص زبان مرورگر هست برای تغییر زبان سایت خودمون با توجه به اون...
در صورتی که ایده ای برای تشخیص زبان های فارسی -اردو و عربی دارید ممنون میشم لطف کنید...

به نام خدا
خب بنظرم حالا وضعیت سوال و موضوع پروژه زیباتر شد
چنانکه احتمالا می دونید این مسئله از زیر شاخه های NLP بشمار می آید و روش های مبتنی بر یادگیری ماشینی می تونه بهتون در این باره کمک کنه
با این حال
در پروژه هایی که قبلا این راه رو رفتن اسکریپت هایی وجود داره که میتونه به شما کمک کنه
مثلا از گوگل ترجمه: google.language.detect(text, function(result)

لینک های زیر احتمالا به شما کمک کنند
c# - How to detect the language of a string? - Stack Overflow

language-detection - Language Detection Library for Java - Google Project Hosting

Short Text Language Detection with Infinity-Gram | Shuyo's Weblog

موفق باشید
__________________
.
.
.
برای تشکر دکمه مخصوص وجود دارد لطفا پست هرز ایجاد نکنید
.
.
اینقدر از دسترسی نداشتن به مقاله شیون نکنید

مقالات انگلیسی: ایران سای (ISI, IEEE, ACM)
مقالات فارسی: سیویلیکا (کنفرانس داخلی)
مقالات فارسی: مگ ایران (ژورنالهای داخلی)
raha_hakhamanesh آفلاين است   پاسخ با نقل قول
از raha_hakhamanesh تشكر كرده است:
hoseinkord (۰۷-۲۴-۱۳۹۲)