بازشناسي ديداري گفتار با استفاده از مدلهاي شکل فعال و مدلهاي مخفي مارکوف
بازشناسي تصويري گفتار فرايندي است که در سالهاي اخير برای کمک به افرادي كه دچار آسيب در سيستم صوتي بوده ، مورد توجه محققين قرار گرفته است . در اين مقاله، يک رويکرد جديد براي تشخيص ديداري گفتار ارائه شده است که شامل دو مرحله استخراج ويژگي از دنباله تصاوير لب و طبقه بندي ويژگي هاي بدست آمده ميباشد. براي استخراج ويژگي ، يک الگوريتم جديد براي استخراج کانتور لب مبتني بر نقاط با استفاده از asm پيشنهاد شده است .در اين الگوريتم، ابتدا يک مدل لب 16 نقطه اي برای توصيف کانتور لب استفاده شده است که اين نقاط توسط چند مد اول تغييرات شکل بدست آمده از مجموعه داده آموزشي کنترل ميشوند. با کمک آناليز خوشه بندي فازي، يک نگاشت احتمال از تصاوير رنگي لب بدست آمده است و يک تابع هزينه مبتني بر ناحيه ساخته شده است . با فرآيند بهينه سازي جديد، مدل لب را بر روي نگاشت احتمال تصوير تحت بررسي منطبق مي کنيم و از پارامترهاي اين مدل به عنوان ويژگي در هر فريم استفاده شده است . در نهايت براي يکسان سازي بعد بردار ويژگي، از روش درون يابي و برای کاهش بعد بردار ويژگي از روشهاي fld و pca استفاده مي گردد . برای طبقه بندي 6 واژه، از الگوريتم hmm استفاده شده و ارزيابي بر روي مجموعه دادگان جمع آوري شده از تصاوير لب 20 گوينده مختلف، صورت گرفته که بيشترين نرخ شناسايي % 89 ميباشد.
|