خصوصيات وب هاي فارسي از نظر زبان
عدم وجود يك استاندارد و شناور بودن ويژگيهاي رسم الخط و مفاهيم در زبان فارسي ، موجب گرديده است تا تقريبا بتعداد صفحات وب فارسي ، سبك و سياق نگارش اين زبان بكار رفته باشد. ليكن خصوصيات مشترك اكثر وبهاي فارسي زبان را مي توان چنين ارزيابي نمود :
الف) نگارش برخي از وب هاي فارسي ، زبان غيررسمي يا محاورهاي است.
ب) در وبهاي فارسي ، بخصوص در متون علمي ، اغلب واژههاي بيگانه ، بكرات استفاده ميشود كه بعضي از آنها بارسم الخط زبان اصلي نوشته ميشوند.
ج) رسمالخط وب هاي فارسي ، اصولا غيراستاندارد و متغير است و اغلب در معرض نوآوري است.
ه) نوشتههاي وبهاي فارسي ، حاوي غلطهاي تايپي و نگارشي نسبتاً زيادي است، هرچند كه اغلب وبهاي فارسي مهم و پرخواننده، نگارش قابلقبولي دارند.
و) رسمالخط وبهاي فارسي، تابع محدوديتهاي محيط الكترونيكي و عدم تطبيق آن با الزامات خط فارسي است.]اشرف زاده،1383[ابزارهاي جستجو در وب هاي فارسي
در حال حاضر ابزارهاي كاوش مختلفي در ايران ظهور پيدا كرده اند.ليكن ابزارهاي جستجويي كه امكان جستجوي اطلاعات به زبان فارسي را در اختيار قرار مي دهند ، محدودند. از طرف ديگر ، امكانات و قابليتهاي آن ها براي بازيابي موثر و مناسب اطلاعات متغير هستند. برخي از ابزارهاي كاوش با امكانات جستجوي فارسي عبارتند از NPiran ، Iranhoo ، IranMehre ، Parseek ، Google و Parseek .بجز سايت NPIran ، ديگر سايتها داراي واسط جستجوي فارسي هستند و بجز Parseek ، هيچيك از ابزارهاي موجود كاوش فارسي ، چالش هاي زبان فارسي را با هدف بهينه سازي كاوش فارسي ، فراروي خود قرار نداده اند و Parseek نيز تنها مشكل كاراكترهاي فارسي با يونيكدهاي مختلف را حل نموده است.
در بين ابزارهاي كاوش فوق ، تنها موتور كاوش Google داراي برنامه روبات به منظور شناسايي و نمايه سازي صفحات يا سايتهاي وب به زبان فارسي و نمايه سازي خودكار مي باشد و قادر است صفحات فارسي را در قالب Unicode شناسايي و در پايگاه خود نمايه كند و سايت Parseek نيز از پايگاه Google براي جستجو و بازيابي اطلاعات استفاده مي كند. به تعبير ديگر، 4 ابزار كاوش ديگر توسط نمايه سازي انساني اداره مي شوند و از اين لحاظ راهنماي موضوعي تلقي مي شوند. ابزارهاي كاوش ديگر ، راهنماي موضوعي به شمار مي آيند و انسان ، فرايند شناسايي، بررسي و نمايه سازي سايتها يا صفحات وب را بر عهده دارد.]كوشا،1381[
بنظر مي رسد جاي يك ابزار كاوش قوي ملي ، تحت نظارت سازمان هاي انفورماتيكي و انجن هاي زبان شناسي فارسي ، منطبق با نيازهاي اطلاعاتي كاربران اينترنت در ايران وبا در نظر گرفتن چالش هاي رسم الخط و مفهومي فارسي و مرتفع سازي مشكلات ناشي از آن ها خالي است.