کاربردهای شبکه عصبی در ocr - Artificial Intelligence

**Astaraki** · ۰۹-۲۳-۱۳۸۸, ۰۶:۳۸ بعد از ظهر

کاربردهای شبکه عصبی در OCR

چكيده

اين گزارش به بررسي كاربردهاي شبكه هاي عصبي مصنوعي در بازشناسي شناسه هاي دستنويس اختصاص دارد. اين كاربردها را ميتوان به سه دسته تقسيم كرد: كاربرد در پيش پردازش، كاربرد در بخش بندي و كاربرد در دسته بندي. بعضي از كاربردهاي پيش پردازشي مربوط به يادگيري فيلترهاي مناسب براي بهبود تصوير، تعيين زاويه چرخش شناسه يا سند حاوي شناسه ها براي اصلاح آن و خوشه بندي پيكسل هاي مربوط به شناسه، براي باريك سازي آن است. در بخش بندي، از شبكه عصبي براي تعيين تعداد شناسه هاي موجود در تصوير ورودي و جداسازي آنها از هم استفاده مي شود. در مهم ترين كاربرد يعني دسته بندي، از شبكة عصبي براي تعيين دستة مربوط به الگوها استفاده مي شود. علاوه بر استفاده از شبكه هاي عصبي جهت دسته بندي به صورت منفرد، از آنها به صورت تركيبي نيز استفاده مي شود. بعضي روش ها، شبكة عصبي را براي تركيب خروجي بدست آمده از دسته بندهاي منفرد به كار گرفته اند.

واژه هاي كليدي

پيش پردازش، بخش بندي، دسته بندي، استخراج ويژگي، رمزگذاري ورودي.

1- مقدمه

یکی از مسائل مهم در حوزة شناسایی الگو، بازشناسی شناسه‎های دست‎نویس است که تا کنون تحقیقات وسیعی روی آن به انجام رسیده و هنوز از بعضی جهات به عنوان یکی از مسائل باز مطرح است. توسعه روش‎های کارآمد جهت بازشناسی شناسه‎های دست‎نویس می‎تواند در شناسایی خودکار حروف و اعداد درج شده در فرم‎ها، مبالغ چک‎ها و بسیاری کاربردهای دیگر راهگشا باشد. بزرگ‎ترین چالش در این حوزه، تنوع شیوه‎های رسم شناسه‎ها است.
یکی از اولین مسائلی که شبکه‎های عصبی به عنوان گزینه‎ای برای حل آن مطرح شد، بازشناسی شناسه‎ها بود. امروزه، شبکه‎های عصبی مصنوعی به صورت گسترده در بازشناسی و تحلیل اسناد به کار می‎رود. بیشتر این تلاش‎ها به بازشناسی شناسه‎های مجزای دست‎نویس و چاپی اختصاص داشته، که اغلب با موفقیت همراه بوده است. تنوع شبکه‎های عصبی مورد استفاده در این حوزه قابل توجه است. از آن جمله می‎توان به پرسپترون چند لایه (MLP)، ماشین بردار پشتیبان (SVM)، شبکه‎های خود سازمانده (SOM)، شبکه‎های انجمنی و انواع دیگر اشاره کرد.
این گزارش، به بررسی کاربرد‎های شبکه‎های عصبی در مراحل مختلف سیستم‎ها بازشناسی شناسه‎های دست‎نویس اختصاص دارد. پس از مقدمه و در بخش دوم، به کاربرد‎های شبکه‎های عصبی در پیش‎پردازش تصاویر ورودی پرداخته می‎شود. در بخش سوم، موارد استفاده از شبکه‎های عصبی در بخش‎بندی مورد بررسی قرار می‎گیرد. در بخش چهارم، کاربردهای شبکة عصبی در دسته‎بندی مورد توجه قرار می‎گیرد. در بخش پنجم نیز، جمع‎بندی و پیشنهادات ارائه شده است.

2- پیش‎پردازش

عملیات پیش‎پردازش، فرآیندی برای ارتقای تصویر ورودی است که آن را برای تحلیل و بازشناسی در مراحل بعد مهیا می‎سازد. از مهمترین مراحل پیش‎پردازش می‎توان به دوسطحی‎سازی (binarization)، بهبود تصویر و اصلاح چرخش (skew correction) اشاره کرد.
2-1- بهبود تصویر

رهیافت متداول در کاهش نویز و ترمیم تصویر، استفاده از فیلترهای مختلف نظیر فیلترهای ریخت‎شناسی است. نکته مهم در مورد این نوع فیلترها آن است که معمولاً برای انواع خاصی از نویز مناسبند و سازگارسازی آنها برای حذف نویزهای دیگر به سادگی ممکن نیست. یک گزینة مناسب برای سازگار نمودن فیلترها جهت مواجه با منابع نویز جدید، استفاده از شبکه عصبی است. شبکه عصبی می‎تواند فیلترهای مناسب را با استفاده از تعدادی الگو یاد بگیرد. تنها با در اختیار داشتن یک یا چند تصویر و تخریب شدة آنها توسط یک منبع نویز، می‎توان شبکة عصبی را آموزش داد.
در مرجع (۱)، یک روش وفق‎پذیر برای بهبود تصاویر اسناد چاپی با استفاده از پرسپترون چند لایه پیشنهاد شده است. در این روش، ابتدا شناسه‎ها به صورت جداگانه تعیین مکان و بازشناسی می‎شوند و سپس تصویر اصلی آنها با استفاده از اطلاعات تصویری بازسازی می‎شود. در مرحلة بعد، شبکة عصبی با استفاده از تصویر اصلی و بازسازی شدة شناسه‎ها آموزش داده می‎شود. در نهایت، فیلتر بدست آمده روی کل تصویر اعمال می‎شود. نحوة آموزش به این صورت است که یک پنجرة مربعی روی تصویر تخریب شده حرکت داده می‎شود و پیکسل‎هایی که در این پنجره قرار می‎گیرند به عنوان ورودی شبکه و پیکسل متناظر با مرکز پنجره از تصویر اصلی به عنوان خروجی مطلوب در نظر گرفته می‎شوند (به شکل 1-1 توجه کنید).

شکل 1-1) بهبود تصویر با استفاده از شبکة عصبی

یکی از مشکلات این روش، بکارگیری مستقیم شبکة عصبی برای اعمال فیلتر است. هنگام استفاده از فیلتر برای تعیین هر پیکسل از تصویر ترمیمی، نیاز به یک بار فعال کردن شبکة عصبی است که به لحاظ محاسباتی این فرآیند کندتر از اعمال فیلترهای عادی است.

2-2- اصلاح چرخش

در بسیاری موارد تصویر سند با محورهای تصویر تراز نیست که می‎تواند در نرخ بازشناسی تاثیر قابل ملاحظه‎ای بگذارد. در چنین مواردی، چرخش تصویر ضروری به نظر می‎آید. برای حل این مشکل، روش‎هایی هم برای کل تصویر صفحه (۲) و هم برای شناسه‎های منفرد (۳) ارائه شده است که مبتنی بر شبکة عصبی هستند. در هر دو مورد، تعدادی ویژگی از از تصویر استخراج می‎شود و به عنوان ورودی به پرسترون چند لایه داده می‎شود تا شبکه میزان چرخش را در تنها نرون خروجی‎اش مشخص کند.

2-3- باریک‎سازی

یکی از مراحل پیش‎پردازش که معمولاً پیش از استخراج ویژگی انجام می‎شود، باریک‎سازی است. انجام باریک‎سازی قبل از استخراج ویژگی سبب حذف بخش عمده‎ای از اطلاعات اضافه و باقی ماندن اطلاعات ساختاری می‎شود. یکی از رهیافت‎های باریک‎سازی، استفاده از خوشه‎بندی است. بعضی از شبکه‎های عصبی، به عنوان ابزاری برای خوشه‎بندی، امکان پیاده‎سازی این گونه روش‎های باریک‎سازی را فراهم می‎آورند. در (۴)، روشی برای باریک‎سازی با استفاده از شبکه‎های خودسازمانده SOM پیشنهاد شده است. نحوة کار به این ترتیب است که ابتدا، پیکسل‎های مربوط به شناسه خوشه‎بندی می‎شوند و سپس مراکز خوشه‎ها به هم وصل می‎شوند. از آنجا که نحوة اتصال خوشه‎ها که هر کدام متناظر با تجمعی از پیکسل‎های شناسه است، شبیه یک گراف می‎باشد و از قبل نمی‎توان آن را پیش‎بینی کرد، لذا در روش پیشنهادی همسایگی نرون‎های خروجی هنگام یادگیری تغییر می‎کنند.

3- بخش بندی

بخش‎بندی، عبارت است از تقسیم تصویر یک کلمه یا تعدادی شناسة متصل به تعداد زیر تصویر که معمولاً هر کدام یک شناسه است. شبکة عصبی می‎تواند برای بخش‎بندی به کار گرفته شد. کاربرد اول تشخیص شناسه‎های به هم چسبیده است و دومی تعیین مکان برش برای جداسازی آنها از هم.
در (۵)، روشی برای تمیز دادن شناسه‎های منفرد از شناسه‎های به هم چسبیده پیشنهاد شده است، که مشخص می‎کند تصویر ورودی‎اش مربوط به یک شناسه است یا از دو شناسة به هم چسبیده تشکیل شده است (شکل 2-1 الف را ببینید). شبکة مورد استفاده در این روش، یک پرسپترون چند لایه است که در لایة خروجی دو نرون دارد. ورودی شبکه پیکسل‎های مربوط به تصویر نرمال شده ورودی به صورت یک تصویر با ابعاد ثابت است. مجموعه‎ای که برای آموزش شبکه مورد نظر ایجاد شده است، شامل 17000 تصویر مربوط به شناسه‎های تک و جفت می‎باشد که به صورت مصنوعی با استفاده از بیش از 30 فونت مختلف ایجاد شده بودند. نکتة قابل توجه در مورد سیستم ایجاد شده با استفاده از این روش، قابلیت تعمیم خوب این روش برای تشخیص جفت شناسه‎هایی بود که به صورت مصنوعی به هم متصل نشده بودند.
این روش را می‎توان توسعه بخشید و از آن برای تشخیص تعداد شناسه‎های به هم چسبیدة بیشتری استفاده کرد. در (۶)، روش مشابهی پیشنهاد شده است که برای تعیین تعداد ارقام موجود در تصاویر مربوط به اعداد می‎باشد. در این روش، شبکة عصبی باید تعیین کند که عدد ورودی یک رقمی، دو رقمی، سه رقمی و یا چهار رقمی است.
کاربرد دوم شبکة عصبی، تعیین نقطة برش جهت جداسازی شناسه‎ها از هم است. در (۷)، از یک پرسپترون چند لایه برای تعیین نقاط برش در کلمات دست‎نویس استفاده شده است. در این روش، یک پنجره نازک به صورت افقی روی تصویر کلمه جابجا می‎شود و شبکه تعیین می‎کند که مکان فعلی پنجره برای برش مناسب است یا خیر (به شکل 2-1 ب توجه کنید). از هر پنجره تعدادی ویژگی استخراج می‎شود و به ورودی شبکه اعمال می‎شود و خروجی تعیین می‎کند برش صورت گیرد یا خیر.

شکل 2-1) استفاده از شبکة عصبی برای بخش‎بندی. الف) تعیین تک شناسه یا جفت شناسة به هم چسبیده. ب) تعیین اینکه آیا یک نقطه برای برش مناسب است یا خیر. ج) تعیین مقطع برش عمودی از میان هشت گزینة ممکن.

در (۸) نیز روش دیگری برای تعیین نقطه برش پیشنهاد شده است. در این روش، فرض بر آن است که حداکثر دو شناسه در تصویر وجود دارد. نحوة کار به این صورت است که ابتدا، ابعاد تصویر به 60×30 تغییر می‎یابد. سپس تعداد پیکسل‎های سیاه در هر پنجرة 5×5 شمرده می‎شود و به عنوان یک ویژگی در نظر گرفته می‎شود. در مجموع 72 ویژگی از هر تصویر استخراج می‎شود و شبکه بر اساس آنها تعیین می‎کند محل برش کدام یک از مقاطع عمودی است. شبکه به تعداد مقاطع عمودی، خروجی دارد و نقطة برش با توجه به بیشترین مقدار خروجی مشخص می‎شود. پس از برش، شناسه‎ها به صورت جداگانه به یک دسته‎بند برای دسته‎بندی داده می‎شود. چنانچه شناسه‎ها در دسته‎بندی رد شوند، نقطة برش بعدی در نظر گرفته شده و فرآیند تکرار می‎شود. این روش مستلزم ایجاد نمونه‎های آموزشی به صورت دستی است.
توسعه سیستم‎هایی که بتوانند بیش از یک نقطة برش را تشخیص دهند، با دشواری‎هایی مواجه است. این مشکل از آنجا ناشی می‎شود که گاهی در یک مکان از کلمه، 3 حرف با روی هم افتادگی دارند و 3 حرف ده‎ها هزار ترکیب مختلف را ایجاد می‎کنند که مستلزم یک مجموعة آموزشی بسیار بزرگ است. از سوی دیگر، برچسب زدن نمونه‎های آموزشی (تعیین نقاط برش) کار دشواری است و باید به صورت دستی انجام گیرد. به همین دلیل، در بیشتر موارد از مجموعه‎هایی که به صورت مصنوعی ایجاد شده‎اند، استفاده می‎شود.
با وجود مشکلاتی که برای روش‎های مبتنی بر شبکه‎های عصبی گفته شد، این روش‎ها دارای مزایای قابل توجهی نسبت به سایر روش‎های متداول هستند. اول آنکه، قادر به مواجه با سطوح مختلفی از روی‎هم افتادگی هستند. مورد دوم مربوط به زمان اجرای کمتر آنها نسبت به روش‎های پیچیده‎تر است.

4- دسته‎بندی

مهم‎ترین کاربرد شبکه‎های عصبی در بازشناسی شناسه‎های دست‎نویس مربوط به مرحلة دسته‎بندی است. نوع شبکة عصبی مورد استفاده و یا به طور کلی دسته‎بند مورد استفاده برای دسته‎بندی شناسه‎ها، وابسته به نحوة استخراج ویژگی از تصویر ورودی است. دلیل این وابستگی، رابطة مستقیم نحوة بازنمایی و رمزگذاری ویژگی‎ها با نوع ویژگی‎های استخراج شده است. به عنوان مثال، اغلب ویژگی‎های آماری به صورت یک بردار از اعداد قابل نمایش هستند، اما بعضی ویژگی‎های ساختاری برای بازنمایی نیاز به ساختارهای پیچیده‎تری نظیر گراف‎ها دارند. در ادامه، ابتدا به نحوة بازنمایی الگو و رمزگذاری ویژگی‎ها پرداخته می‎شود و سپس چند نمونه از بکارگیری شبکه‎های عصبی در دسته‎بندی الگو‎ها مورد بررسی قرار می‎گیرد.

4-1- بازنمایی الگو و رمزگذاری

قبل از استفاده از یک شبکة عصبی، باید چگونگی اِعمال ویژگی‎های بدست آمده از الگوها، به شبکه را مشخص کرد. به فرآیندی که طی آن ویژگی‎ها به ورودی شبکه نگاشت می‎شوند، رمزگذاری ورودی گویند. یک نگاشت سر راست، زمانی امکان‎پذیر است که تعداد ویژگی‎ها ثابت باشد، اما زمانی که تعداد ویژگی‎ها از الگویی به الگوی دیگر متفاوت باشد، پیچیده‎تر می‎گردد. به عنوان مثالی از رمزگذاری ساده با طول ثابت، می‎توان به روش ناحیه‎بندی اشاره کرد. در این روش، تصویر ورودی به تعداد معینی ناحیه تقسیم می‎شود و از هر ناحیه تعدادی مشخصی ویژگی استخراج می‎گردد.
گاهی بازنمایی ویژگی‎ها به صورت یک بردار با طول ثابت میسر نیست. به عنوان مثال، در مورد ویژگی‎های ساختاری که بخش‎های مختلف شی و رابطه مکانی متقابل آنها مورد نظر است، استفاده از گراف برای نمایش آنها مناسب‎تر است. به این صورت که ویژگی‎های مربوط به هر بخش متناظر با گره‎ها، و روابط بین آنها با یال‎ها قابل نمایش‎اند. در مواردی که از گراف برای بازنمایی الگو‎ها استفاده می‎شود، چنانچه تعداد گره‎ها و یال‎ها محدود باشد، می‎توان بدون از دست‎رفتن اطلاعات آنها را به صورت یک بردار با طول ثابت در آورد.

کل 4-1) توصیف یک شکل توسط گراف بر مبنای ویژگی‎های مرزی و ساختار پردازشی مربوط به آن

شکل 4-1) توصیف یک شکل توسط گراف بر مبنای ویژگی‎های مرزی و ساختار پردازشی مربوط به آن

در (۱۰)، روشی برای بازشناسی الگوهایی که توسط گراف‎های جهت‎دار مرتب بدون دور توصیف می‎شوند، ارائه شده است. مبنای این روش، ایجاد یک توصیف گرافی مناسب برای هر الگوی معین است. شکل 4-1، یک الگو را همراه با گراف توصیف کننده و ساختار پردازشی مربوط به آن را نشان می‎دهد. نحوة ایجاد گراف به این صورت است که به هر مرز یک گره نسبت داده می‎شود. تمام مرزهای داخلی مربوط به هر مولفه از تصویر، به عنوان فرزندان مرز خارجی آن در نظر گرفته می‎شود. این کار به صورت بازگشتی برای مولفه‎های متداخل تکرار می‎شود. الگوهای پیچیده‎تر را می‎توان توسط گراف‎های عمومی‎تر نمایش داد، اما معماری شبکه‎های عصبی کلاسیک و الگوریتم‎های یادگیری مربوط به آنها ناکاراتر می‎شوند.

مورد دیگری که هنگام استفاده از شبکه‎های عصبی مطرح می‎‎شود، نحوة رمزگذاری خروجی است. رمزگذاری خروجی، شیوة تعبیر از خروجی‎های شبکه جهت اعمال به مسئله را مشخص می‎کند و با توجه به الزامات مسئله تعیین می‎شود. در مورد شبکة عصبی پرسپترون چند لایه، رمزگذاری خروجی معمولاً به این صورت است که به ازای هر دسته، یک خروجی در نظر گرفته می‎شود و دستة الگوی ورودی متلعق به دسته‎ای است که خروجی متناظر با آن بیشترین مقدار را داشته باشد. این نحوة رمزگذاری خروجی همواره ممکن نیست. به عنوان مثال، زمانی که از شبکه‎های خودانجمنی استفاده می‎شود، خروجی شبکه یک الگوست و نمی‎تواند به صورت گفته شده باشد. در (۹) یک روش رمزگذاری خروجی برای شبکه‎های خودانجمنی پیشنهاد شده است. در این روش، یک شبکه به هر دسته اختصاص دارد و تعدادی از الگو‎های متعلق به آن دسته را یاد می‎گیرد. هنگام دسته‎بندی، الگوی ورودی مربوط به دسته‎ای است که خروجی شبکة متناظر با آن، فاصلة کمتری با الگوی ورودی داشته باشد ( به شکل 4-2 توجه کنید).

شکل 4-2) استفاده از چند شبکة عصبی انجمنی برای دسته‎بندی

4-2- استخراج ویژگی مبتنی بر بردار

شبکه‎های عصبی کلاسیک به خوبی با روش‎های استخراج ویژگی مبتنی بر بردار سازگار هستند. زمانی که ویژگی‎های استخراج شده از تصویر ورودی به صورت یک بردار با طول ثابت باشند، طیف وسیعی از انواع مختلف شبکه‎های عصبی را می‎توان مورد استفاده قرار داد. پرکاربرد ترین شبکة عصبی را می‎توان پرسپترون چندلایه دانست. در کنار آن، شبکه‎های عصبی دیگر نظیر RBF، LVQ، SVM و ... نیز در کاربردهای دسته‎بندی مورد استفاده قرار می‎گیرند. در این میان، بکارگیری SVM روند رو به رشدی دارد و در بسیاری حوزه‎ها عملکرد بهتری را نسبت به پرسپترون چند لایه نشان داده است.
فرآیند بکارگیری این شبکه‎ها (استفاده از آنها به تنهایی و نه به صورت ترکیبی) روشن است. بیشتر مقالاتی که از این گونه از شبکه‎ها بهره گرفته‎اند، تمرکز اصلی آنها روی استخراج ویژگی‎ها مناسب، ایجاد ترکیبی از دسته‎بندها (classifier) و انتخاب ویژگی جهت بهبود سرعت و کارایی تمرکز دارند. در (۱۱) و (۱۲)، استفاده از پرسپترون چند لایه برای دسته‎بندی شناسه مورد نظر قرار گرفته است. در (۱۳)، روشی برای بازشناسی شناسه‎های دست‎نویس پیشنهاد شده است که ابتدا از یک شبکة عصبی خودسازمانده کوهنن و به دنبال آن از یک شبکة LVQ استفاده کرده است. در (۱۴) نیز روشی برای هرس لایه مخفی یک شبکة عصبی شبه RBF پیشنهاد شده است و از آن برای بازشناسی ارقام دست‎نویس فارسی استفاده شده است. در (۱۵)، روشی سریع برای آموزش SVM پیشنهاد شده است و از آن برای بازشناسی شناسه‎های چینی استفاده شده است. در (۱۶) نیز روشی برای بازشناسی شناسه‎های دست‎نویس با استفاده از SVM ارائه شده است که از تبدیل موجک (wavelet) برای استخراج ویژگی بهره می‎برد.

4-3- رمزگذاری ویژگی‎های ساختاری

منظور از ویژگی‎های ساختاری، ویژگی‎هایی هستند که شناسه‎ها را به صورت یک مجموعه از اجزا و رابطة بین آنها توصیف می‎کنند. دو راه برای استفاده از این نوع ویژگی‎ها با استفاده از شبکه‎های عصبی متداول وجود دارد. روش اول، تبدیل آنها از قالب اطلاعات طول متغیر به برداری با طول ثابت است که به سادگی قابل اِعمال به شبکه‎های معرفی شده در بخش 4-2 هستند. روش دوم، استفاده از شبکه‎های عصبی بازگشتی است.
یکی از روش‎های توصیف شناسه‎های دست‎نویس، استفاده از مرزها و اسکلت آن است. در (۱۷) روشی پیشنهاد شده است که در آن شناسه بوسیلة یک گراف توصیف می‎شود، بطوریکه گره‎های این گراف مربوط به زیرالگوهای استخراج شده از شناسه و یال‎ها مربوط به موقعیت مکانی بین آنهاست. جهت رمزگذاری این گراف به صورت یک بردار با طول ثابت، به هر گره و یال از گراف، یک موقعیت از پیش تعیین شده در بردار ویژگی نسبت داده شده است. این روش زمانی مناسب است که بیشینه طول بردار از مشخص باشد. یکی از مزایای این روش، نگاشت گراف به یک بردار طول ثابت بدون از دست رفتن اطلاعات است. در (۱۰) روشی پیشنهاد شده است که از یک شبکة عصبی بازگشتی برای پردازش گراف استفاده می‎شود (در بخش 4-1 به آن اشاره شد).

4-4- ساختارهای ترکیبی

گاهی چند شبکة عصبی و یا به طور کلی دسته‎بند، در کنار هم بکار گرفته می‎شوند. در بخش 4-1 به یک نمونه از این ساختارها اشاره شد، که از چند حافظة انجمنی برای دسته‎بندی استفاده می‎کرد (شکل 4-2). قرار دادن چند شبکة انجمنی در کنار هم به دلیل آن است که نمی‎توان یکی از آنها را به تنهایی برای دسته‎بندی مورد استفاده قرار داد، زیرا این نوع از شبکه‎ها اصولاً به عنوان یک حافظه عمل می‎کنند. در بیشتر موارد، ساختارهای ترکیبی از تعدادی دسته‎بند تشکیل شده‎اند که در کنار هم کار می‎کنند و تصمیم نهایی در مورد الگوی ورودی، با توجه به برآیند خروجی آنها گرفته می‎شود.
در (۱۸)، روشی ارائه شده است که در آن سه شبکة عصبی برای شناسایی ارقام با هم ترکیب شده‎اند و رای اکثریت تعیین می‎کند، الگوی ورودی مربوط به چه رقمی است. دو تا از سه شبکة معماری مشابه دارند و تنها تفاوت آنها مربوط به مقداردهی اولیه به وزن‎هایشان است. سومین شبکه با ویژگی‎های متفاوتی تغذیه می‎شود.
روش‎های مختلفی برای ترکیب خروجی در یک سیستم که شامل چند دسته‎بند است، وجود دارد. به عنوان مثال، می‎توان به رای اکثریت، رای مطلق و رای‎گیری وزن‎دار (خروجی دسته‎بندها با یک درجات اهمیت مختلف مورد رسیدگی قرار می‎گیرند) اشاره کرد. البته روش‎های ترکیب محدود به این سه مورد نیست. در (۱۹)، روشی پیشنهاد شده است که در آن از یک شبکة عصبی برای ترکیب خروجی‎ها استفاده شده است. خروجی هر یک از دسته‎بندها، به صورت مستقیم با یک اتصال وزن‎دار به خروجی نهایی سیستم متصل شده است (شکل 4-3 الف). در (۲۰) روش مشابهی به کار گرفته شده است که در آن اجزای تشکیل دهندة سیستم، شامل دسته‎بند‎های منفرد و ترکیب‎کننده، همگی شبکة عصبی هستند (شکل 4-3 ب). این سیستم شامل ده دسته‎بند منفرد است که هر کدام مسئول تشخیص یک رقم خاص می‎باشد و به این ترتیب بردار خروجی هر کدام از آنها با بقیه متفاوت است.

شکل 4-3) استفاده از شبکة عصبی برای ترکیب خروجی‎ها. الف) سیستمی با ترکیب‎کنندة شبکة عصبی که از سه دسته‎بند منفرد تشکیل شده است. ب) مشابه الف با این تفاوت که دسته‎بندها هم شبکة عصبی‎اند

گاهی تعداد دسته‎ها زیاد است و می‎توان برای بهبود کارایی سیستم آنها را به چند دسته تقسیم کرد. به عنوان مثال، شناسه‎های زبان انگلیسی را می‎توان به سه دستة حروف بزرگ، حروف کوچک و ارقام تقسیم نمود. در ]21[، ساختاری با سه دسته‎بند ویژه برای هر یک از دسته‎های عمومی، پیشنهاد شده است (شکل 4-4). دسته‎بندی در این سیستم، در دو مرحله انجام می‎شود. ابتدا شبکة انتخاب کننده، دسته‎بند مناسب را فعال می‎کند و سپس، دسته‎بند انتخاب شده الگوی ورودی را دسته‎بندی می‎کند.

شکل 4-4) استفاده از یک دسته‎بند انتخابگر برای تعیین دسته‎بند مناسب جهت دسته‎بندی الگوی ورودی

5- جمع‎بندی و پیشنهادها

شبکه‎های عصبی مصنوعی به عنوان یکی از ابزارهای پرکاربرد در زمینة بازشناسی شناسه‎های دست‎نویس مطرح است. این کاربردها محدود به فرآیند دسته‎بندی نیست بلکه در فرآیندهای دیگر نظیر پیش‎پردازش و بخش‎بندی نیز استفاده می‎شود.
کارایی شبکه‎های عصبی به طور قابل توجهی وابسته با مقدار نمونه‎های آموزشی و شباهت آنها با نمونه‎های واقعی است. به همین دلیل وجود مجموعه‎های آموزشی بزرگ و استاندارد می‎تواند در پیشرفت‎های بیشتر در این حوزه بینجامد و امکان مقایسه بین روش‎های مختلف را فراهم کند. در سال‎های اخیر گرایش به استفاده از سیستم‎های ترکیبی که در بخش 4-4 به آنها اشاره شد، رو به افزایش است. به نظر می‎رسد، توسعه این روش‎ها می‎تواند به بهبود هر چه بیشتر کارایی سیستم‎های بازشناسی (از جمله برای شناسه‎های دست‎نویس) منجر شود. یکی از کاستی‎های دیگر که تاکنون توجه کمی به آن شده است، ایجاد ساختارهایی برای پردازش اطلاعاتی با ساختارهای غیرخطی نظیر گراف‎ها است. رفع این مشکل از آن جهت مهم است که یکی از موثرترین شیوه‎های توصیف شناسه‎ها و نمادهای گرافیکی، بازنمایی آنها توسط ویژگی‎های ساختاری است.

مراجع

[1] P. Stubberud, J. Kanai, and V. Kalluri, “Adaptive image restoration of text images that contain touching or broken characters”, in Proc. 3rd Int'l Conf. Doc. Anal. Rec., pp. 778-781, 1995.
[2] N. Rondel and G. Burel, “Cooperation of multilayer perceptrons for the estimation of skew angle in text document images”, in Proc. 3rd Int'l Conf. Doc. Anal. Rec., pp. 1141-1144, 1995.
[3] R. Palaniappan, P. Raveendran, and S. Omatu, “New invariant moments for non-uniformly scaled images”, Pattern Analysis and Applications, vol. 3, no. 2, pp. 78-87, 2000.
[4] P. Ahmed, “A neural network based dedicated thinning method”, Pattern Recognition Letters, vol. 16, no. 6, pp. 585-590, 1995.

[5] J. Wang and J. Jean, “Segmentation of merged characters by neural networks and shortest path”, Pattern Recognition, vol. 27, no. 5, pp. 649-658, 1994.

[6] Z. K. Lu, Z. Chi, and W. C. Siu, “Length estimation of digits strings using a neural network with structure based features”, SPIE/IS&T Journal of Electronic Imaging, vol. 7, pp. 79-85, January 1998.
[7] B. Eastwood, A. Jennings, and A. Harvey, “A low level feature based neural network segmenter for fully cursive handwritten words”, in Proc. 4th Int'l Conf. Doc. Anal. Rec., p. 523, 1997.
[8] J. H. Bae, K. Jung, J. Kim, and H. Kim, “Segmentation of touching characters using an MLP”, Pattern Recognition Letters, vol. 19, no. 8, pp. 701-709, 1998.
[9] D. E. Rumelhart, J. L. McClelland, and the PDP Research Group, Parallel Distributed Processing: Explorations in the Microstructure of Cognition, vol. 1. Cambridge: MIT Press, 1986.
[10] P. Frasconi, M. Gori, and A. Sperduti, “A general framework for adaptive processing of data structures”, IEEE Trans. Neural Networks, vol. 9, no. 5, pp. 768-786, 1998.
[11] M. Bishop (1995). Neural Networks for Pattern Recognition. Oxford Univ. Press, Oxford-U.K.
[12] Y. LeCun, L. Bottou, G. B. Orr, K. R. Muller (1998a). Eficient backprop. In G. Orr and K.Miller, editors, Neural Networks: Tricks of the Trade. Springer.
[13] K.V. Prema, N,V. Subba reddy, “Two-tier architecture for unconstrained handwritten character recognition”, Sadhana Vol. 27, Part 5, October 2002, pp. 585–594.
[14] م. زیارت‎بان، ر. صفابخش، م. ازوجی، "روشی سریع برای هرس لایة مخفی در شبکة عصبی NN-MLP به منظور بازشناسی ارقام دست‎نویس فارسی"، دوازدهمین کنفرانس بین‎المللی انجمن کامپیوتر ایران، اسفند 1385.
[15] J.X. Dong, A. Krzyzak, C.Y. Suen, “High accuracy handwritten Chinese character recognition using support vector machine”, Proc. Int. Workshop on Artificial Neural Networks for Pattern Recognition, Florence, Italy, 2003.
[16] A. Mowlaei, K. Faez, “Recognition of Isolated Handwritten Persian/Arabic Characters And Numerals Using Support Vector Machine”, IEEE workshop on Neural Networks for signal processing 2003.
[17] A. Amin, H. Al-sadoun, and S. Fischer, “Hand-printed Arabic character recognition system using an artificial network”, Pattern Recognition, vol. 29, no. 4, pp. 663-675, 1996.
[18] N. W. Strathy and C. Y. Suen, “A new system for reading handwritten zip codes”, in Proc. 3rd Int'l Conf. Doc. Anal. Rec., pp. 74-77, 1995.
[19] D. Lee and S. N. Srihari, “Dynamic classifier combination using neural network”, in Proc. SPIE-Doc. Rec. II, pp. 26-37, 1995.
[20] L. Mui, A. Agarwal, A. Gupta, and P. S.-P. Wang, “An adaptive modular neural network with application to unconstrained character recognition”, Int. Journal of Pattern Recognition and Artificial Intelligence, vol. 8, no. 5, pp. 1189-1204, 1994.
[21] J. Mao, K. Mohiuddin, and T. Fujisaki, “A two-stage multi-network OCR system with a soft pre-classifier and a network selector”, in Proc. 3rd Int'l Conf. Doc. Anal. Rec., pp. 78-81, 1995.

اسلاید اين مقاله(خلاصه)

kiumars1370 · ۰۹-۲۷-۱۳۹۲, ۱۲:۲۸ بعد از ظهر

سلام،من روی شناسایی صورت با عکس های سیاه و سفید(2 بعدی)کار می کنم.میشه درباره نرمالیزه کردن شدت نور عکس های سیاه و سفید (مثلا باتوجه به ناحیه مثلثی بین دو چشم و بینی) به یک بازه مشخص مرا راهنمایی کنید و توضیحی درباره scaling و enhaning تصویر توضیح بدید.ممنون

kiumars1370 · ۰۹-۲۷-۱۳۹۲, ۱۲:۳۸ بعد از ظهر

سلام،من روی شناسایی صورت با عکس های سیاه و سفید(2 بعدی)کار می کنم.میشه درباره نرمالیزه کردن شدت نور عکس های سیاه و سفید (مثلا باتوجه به ناحیه مثلثی بین دو چشم و بینی) به یک بازه مشخص مرا راهنمایی کنید و توضیحی درباره scaling و enhaning تصویر توضیح بدید.ممنون