نقل قول:
نوشته اصلي بوسيله hoseinkord
با سلام وتشکر...فکر کنم من مطلب رو بد بیان کردم ....منظور این است که مطالب یک سایت رو اسکن کنیم و تشخیص بدیم زبان سایت فارسی هست یا اردو یا عربی با توجه به مشابه بودن زبان ها....تعیین کردن charset در هر سه نوع سایت فقط به صورت charset =utf-8 تعیین میشه و معمولا زبان سایت رو تعیین نمی کنند (درصد خیلی پایینی تعیین میکنند) .
در واقع یه چیزی شبیه به google translater که زبان سایت رو تشخیص میده (detect language)..
اون دوتا لینکی هم که دادید از اونجایی که با برنامه نویسی جوملا هم کار کردم...اولی با استفاده از JFactory::getLanguage(); زبان سایت رو که از بخش مدیریت تعیین شده تشخیص میده ...دومی هم که در واقع تشخیص زبان مرورگر هست برای تغییر زبان سایت خودمون با توجه به اون...
در صورتی که ایده ای برای تشخیص زبان های فارسی -اردو و عربی دارید ممنون میشم لطف کنید...
|
به نام خدا
خب بنظرم حالا وضعیت سوال و موضوع پروژه زیباتر شد
چنانکه احتمالا می دونید این مسئله از زیر شاخه های NLP بشمار می آید و روش های مبتنی بر یادگیری ماشینی می تونه بهتون در این باره کمک کنه
با این حال
در پروژه هایی که قبلا این راه رو رفتن اسکریپت هایی وجود داره که میتونه به شما کمک کنه
مثلا از گوگل ترجمه: google.language.detect(text, function(result)
لینک های زیر احتمالا به شما کمک کنند
c# - How to detect the language of a string? - Stack Overflow
language-detection - Language Detection Library for Java - Google Project Hosting
Short Text Language Detection with Infinity-Gram | Shuyo's Weblog
موفق باشید