Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > داده کاوی > کاوش وب(Web Mining)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۸-۱۲-۱۳۸۸, ۱۱:۱۹ قبل از ظهر   #1 (لینک دائم)
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Exclamation مشكلات ومحدوديت هاي وب كاوي در سايت هاي فارسي زبان

مشكلات ومحدوديت هاي وب كاوي در سايت هاي فارسي زبان

در دهه هاي اخير ، بيشترين اختلاف نظر در باب شيوه املاي كلمات فارسي بر سر موضوع جدانويسي يا پيوسته نويسي كلمات مركب بوده است.فرهنگستان زبان و ادب فارسي ، در اين باب راه ميانه را برگزيده و كوشيده است تا فقط مواردي را كه جدانوشتن و يا پيوسته نوشتن آنها الزامي است ، تحت قاعده و ضابطه درآورد و شيوه نگارش بقيه كلمات مركب را به ذوق و سليقه نويسندگان واگذار كند.]فرهنگستان،1382[
بعضي چالش هاي زبان فارسي در رايانه و بخصوص در اينترنت كه باعث تفاوت در نتيجه جستجو در وب يا وب كاوي مي شود از قرار زير است :
الف) تنوع نحوه استفاده از “مي” چسبان و غير چسبان ، مثل كلمات “مي تواند” و “ميتواند”.
ب) تنوع نحوه بكاربردن چسبان و غير چسبان “ها” ، مثل “آن ها” و “آنها”.
ج) بكار بردن بعضي پيشوند ها و پسوند ها ، مثل “همين كه” و “همينكه” ويا “هيچ يك” و “هيچيك” و يا “راه گشا” و “راهگشا”.
د) بكاربردن “حمزه” بصورت هاي مختلف ، مثل “مسؤول” و “مسئول” يا “مسأله” و “مسئله”.
ه) استفاده يا عدم استفاده از “ء” ، براي كلمات مختوم به هاي بيان حركت ، در حالت مضاف ، مثل “خانة مسكوني” و “خانه مسكوني”.
و) تنوع استفاده از “ي” در كلمات عربي مختوم به “ا” ، مثل “موسي” و “موسا”.
ز) تنوع املايي بعضي كلمات كه همه درست هستند ، مثل “اتاق” و “اطاق”.
ح) استفاده از كلمات اروپايي بصورت زبان اصلي يا ترجمه فارسي بخصوص در متون علمي ، مثل “Update” و “بروزآوري”.
ط) استفاده يا عدم استفاده از جمع مكسر براي بعضي كلمات.
ي) تبديل كلمات اروپايي به رسم الخط فارسي با همان تلفظ اصلي ، مثل “Source” و “سورس”.
ك) استفاده از “ا” و “آ” بجاي هم ، مثل “فرايند” و “فرآيند”.
ل) استفاده يا عدم استفاده از اعراب براي كلمات .
بعبارت ديگر ، يك كاربر ممكن است در جستجوي خود در وب ، كلمه كليدي خاصي را بكار برد ، ليكن در صفحات وب چنين كلمه اي بكار نرفته باشد و با توجه به مواردي كه در مورد تنوع كاربري كلمات ، بحث شد ،كلمه مشابهي ثبت شده باشد. بنابراين بسياري از صفحات وب مطلوب كاربر ، در مجموعه بازيابي شده ، وجود نداشته باشد.
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده اند:
engineer_yasin (۰۴-۲۹-۱۳۸۹), shokofeh (۰۶-۱۶-۱۳۹۰)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
قديمي ۰۸-۱۲-۱۳۸۸, ۱۱:۲۸ قبل از ظهر   #2 (لینک دائم)
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Wink

جستجوی وب

از آنجاييکه واسط هاي پرس و جو مرسوم در مستندات ايندکس گذاري شده توسط کلماتي که در آن ها ظاهر مي شوند متمرکز مي کنند , پتانسيل بهره برداري اطلاعات شامل ابر پيوند هايي مي شوند که به صفحه اي که در ابتدا تشخيص داده شده اند اشاره مي کند .

متن هاي ارجاعي صفحات ماقبل پيش از اين توسط کرم وب جهاني , يکي از اولين موتورهاي جستجو و خزنده وب .

اسپرتاس يک طبقه بندي نوع هاي مختلف ابر پيوند ها را معرفي کرد که مي تواند در وب پيدا شود

چگونه پيوند ها مي توان از اطلاعات مختلف تکليف هاي وابسته در وب بهره برداري کرد

راه ميانبر اصلي ادراک بود که محبوبيت و بنابراين اهميت صفحه تا حدي با تعداد پيوندهاي وارده مرتبط مي شود , آن هم اين اطلاعات مي تواند به طور سودمند مرتب کردن نتايج پرس و جو موتور جستجو استفاده شود.

درجه وارده به تنهايي ,اگر چه , اندازه خيلي کم از اهميت است اما صفحات زيادي متناوباً اشاره مي شوند بدون اينکه به محتوي صفحه اشاره شده ارتباط برقرار شود.

لينبرگ پيشنهاد کرد که دو نوع از صفحات هستند که مي تواند براي يک پرس و جو مناسب باشد :

منبع هاي صحيح و موثق (authorities) صفحاتي هستند که شامل اطلاعات مفيد درباره عنوان پرس و جوها مي شود

در حالي که هاب ها شامل اشاره گرهايي به منابع اطلاعات خوب است .

هر دو نوع از صفحات به طور اختياري وصل مي شوند: هاب هاي خوب شامل شامل اشاره گرهايي به منبع هاي صحيح و موثق خيلي خوبي است , و منبع هاي صحيح و موثق خوب توسط هاب هاي خيلي خوبي اشاره مي شوند

کلينبرگ پيشنهاد استفاده آزمايشي کردن از اين ارتباط را توسط وابسته کردن هر صفحه x به يک منبع هاب H(x) و يک منبع صحيح و موثق A(x) کرد , که به طور تکرار کننده محاسبه مي شود

در اينجا (x,y) به معني اين است که يک پيوند از صفحه x به صفحه y وجود دارد. اين محاسبات به باصطلاح زيرگراف متمرکز شده وب هدايت مي شود , که توسط افزودن نتيجه جستجو پرس و جو هاي مرسوم با تمام صفحات ماقبل و مابعد فراهم مي شود

درجه هاي هاب و منبع هاي موثق وصحيح به طور يکسان با A0(x)=H0(x)=1.0 مقدار دهي اوليه و طبيعي مي شود بدين منظور آن ها قبل از هر تکرار با يک جمع مي شوند
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده است:
shokofeh (۰۶-۱۶-۱۳۹۰)
قديمي ۰۸-۱۲-۱۳۸۸, ۱۲:۱۱ بعد از ظهر   #3 (لینک دائم)
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Cool

واسط فارسي براي بهبود جامعيت كاوش در وب کاوی

اين قسمت از عامل ، از يك پايگاه داده تشكيل شده است كه حاوي چندين كلمه معادل بعضي كلمات خاص كه در چالش ها ذكر گرديد ، مي باشد. اين تناظر ، مي تواند مربوط به معادل هاي رسم الخط ، معادل هاي مفهومي يا معادل هايي به زبان هاي غير فارسي باشد. بدين صورت كه با عبور دادن كلمات مورد كاوش از اين واسط و يا با رجوع به اين پايگاه داده ، عملا يك كاوش بر اساس يك كلمه كليدي خاص ، منجر به چند كاوش براي كلمات معادل آن كلمه كليدي خاص مي گردد. با اين ترفند ، صفحات حاوي كلمات معادل ، از دست نمي رود و پارامتر جامعيت را تقويت مي نمايد.
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده است:
shokofeh (۰۶-۱۶-۱۳۹۰)
پاسخ



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۵:۵۰ بعد از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design