تاپيک: پردازش صوت
نمايش پست تنها
قديمي ۰۹-۱۷-۱۳۸۸, ۰۱:۴۱ بعد از ظهر   #2 (لینک دائم)
Astaraki Female
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Lightbulb پردازش صدا

پردازش صدا

تشخیص صدا یا شناسایی گوینده(Speaker Identification) یکی از مسایل علوم رایانه‌ و هوش مصنوعی است که هدف آن شناسایی یک فرد تنها از روی صدای شخص است. یکی از اصلی‌ترین ابزارهای ریاضی برای حل این مسیله مدلهای پنهان مارکوف هستند. برای حل این مسئله با استفاده از مدل پنهان مارکوف (م.پ.م) این مدلهای آماری ابتدا باید مورد آموزش قرار بگیرند. برای این مرحله ابتدا مقدار قابل توجهی از صدای ضبط شده افراد پردازش می‌شود. داده‌های پردازش شده که در حقیقیت مجموعه عظیمی از اعداد می‌‌باشند متناوباً مورد استفاده قرار میگیرند تا م.پ.م. برای هر گوینده به دست آید. در حقیقت م.پ.م.‌ها مانند یک ماشین عمل می‌کنند که ورودی آنها یک سری داده است و خروجیشان یک عدد برای هر مجموعه‌ای از داده‌ها، به این صورت که آن عدد نشان دهنده اختلاف داده‌های ورودی با م.پ.م هر ماشین است. برای آموزش م.پ.م در هر تناوب داده‌ها به م.پ.م داده می‌شود و پارامترهای م.پ.م ذره‌ای تغییر داده می‌شود تا عدد خروجی (که نشان دهنده اختلاف داده‌ها با م.پ.م است) کوچکتر شود. برای اطمینان از اینکه تغییر پارامترهای م.پ.م در جهت درست انجام می‌گیرد و نهایتا به حداقل شدن عدد خروجی می‌انجامد از یک روش ریاضی به نام Expectation Maximization استفاده می‌شود. در نهایت بعد از آموزش این مدلها که با استفاده از صدای مرجع انجام شده، می‌توان برای آزمایش سامانه صدای یکی از افرادی که قبلا از صدای وی برای آموزش م.پ.م استفاده شده را به هر یک از م.پ.م‌ها داد. م.پ.م‌ای که کوچکترین عدد را تولید می‌کند به عنوان فرد شناسایی شده در نظر گرفته می‌شود.
سامانه بالا به دلایل مختلفی احتمال خطا دارد. شباهت صدای افراد به یکدیگر (که گاهی انسانها را نیز به اشتباه می‌‌اندازد)، صداهای حاشیه (نویز)، محدودیت حجم داده‌های مرجع برای آموزش و غیره از جمله این اشتباه‌ها هستند. برای بالا بردن ضریب اطمینان سامانه شناسایی گوینده روشهای مختلفی بکار می‌رود که هر ساله نیز با پیشرفت تحقیقات در دنیا به آنها اضافه می‌شود.



از جمله استفاده ترکیبی از تشخیص گفتار و تشخیص صدا که در آن نه تنها صدای گوینده بلکه کلمه(های) وی نیز مورد آزمایش قرار می‌گیرند. گوینده باید کلمات مشخصی را بکار ببرد تا سامانه به وی اجازه عبور بدهد. همچنین می‌توان از یک عدد حداکثر برای مقایسه اعداد خروجی م.پ.م استفاده کرد بطوری که م.پ.م مورد نظر نه تنها باید کوچکترین عدد را بدهد بلکه باید این عدد از یک عدد مرجع نیز کوچکتر باشد. در نتیجه این تغییر در سامانه ضریب ایمنی سامانه بالا می‌رود. این ضریب ایمنی به قیمت بالا رفتن درصد ردّ افراد از روی خطا صورت می‌گیرد و باعث می‌شود شخصی که به او باید اجازه عبور داده شود چند بار رمز خود را برای سامانه تکرار کند. مانند تمام سامانه‌هایی بهینه‌سازی پارامترهای مختلف برای بهترین عملکرد سامانه در شرایط مورد نیاز لازم است. (به عنوان مثال در ورودی اتاق کنترل یک نیروگاه هسته‌ای نیاز به حفاظت زیادی دارد که ممکن است در مورد درب ورودی کتابخانه دانشگاه نیاز نباشد.)
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده است:
pedram021 (۱۱-۲۸-۱۳۹۰)