بازشناسي متن چاپي فارسي بر مبناي جداسازي هوشمند
بازشناسي متن چاپي فارسي بر مبناي جداسازي هوشمند
یک روش سریع و دقیق براي بازشناسی متن چاپی فارسی با درجه تفکیک 300 نقطه بر اینچ معرفی می شود. این روش مبتنی بر جداسازي زیرکلمات به حروف و زیر حروف سازندة آنها بوده و فرایند بازشناسی در چندین مرحله، با استفاده از طبقه بندهاي شبکه عصبی تقویت شده انجام می گیرد. جداسازي زیرکلمات، همواره یکی از مشکل ترین بخشهاي بازشناسی متون فارسی و عربی بوده است. کمترین اشتباه در فرایند جداسازي ، موجب گسترش خطا در فرایند کلی بازشناسی می شود. در این مقاله علاوه بر ارائه روش ساده و سریع براي جداسازي، با استفاده از نتایج مرحله بازشناسی، خطاهاي مرحله جداسازي تصحیح می شود. به عبارتی، سیستم داراي یک حلقه بازخورد است که باعث افزایش قابلیت اعتماد آن شده است. داده هاي هدف در این تحقیق، متون فارسی با قلمهاي لوتوس، نازنین و میترا بوده است. البته الگوریتم به گونه ایست که براي سایر قلمها قابل توسعه است. این روش روي 8 صفحه متن فارسی با درجه تفکیک 300 نقطه بر اینچ آزمایش شده و دقت بازشناسی 99 % حاصل شده است.
|