پردازش صدا
تشخیص صدا یا شناسایی گوینده(Speaker Identification) یکی از مسایل علوم رایانه و هوش مصنوعی است که هدف آن شناسایی یک فرد تنها از روی صدای شخص است. یکی از اصلیترین ابزارهای ریاضی برای حل این مسیله مدلهای پنهان مارکوف هستند. برای حل این مسئله با استفاده از مدل پنهان مارکوف (م.پ.م) این مدلهای آماری ابتدا باید مورد آموزش قرار بگیرند. برای این مرحله ابتدا مقدار قابل توجهی از صدای ضبط شده افراد پردازش میشود. دادههای پردازش شده که در حقیقیت مجموعه عظیمی از اعداد میباشند متناوباً مورد استفاده قرار میگیرند تا م.پ.م. برای هر گوینده به دست آید. در حقیقت م.پ.م.ها مانند یک ماشین عمل میکنند که ورودی آنها یک سری داده است و خروجیشان یک عدد برای هر مجموعهای از دادهها، به این صورت که آن عدد نشان دهنده اختلاف دادههای ورودی با م.پ.م هر ماشین است. برای آموزش م.پ.م در هر تناوب دادهها به م.پ.م داده میشود و پارامترهای م.پ.م ذرهای تغییر داده میشود تا عدد خروجی (که نشان دهنده اختلاف دادهها با م.پ.م است) کوچکتر شود. برای اطمینان از اینکه تغییر پارامترهای م.پ.م در جهت درست انجام میگیرد و نهایتا به حداقل شدن عدد خروجی میانجامد از یک روش ریاضی به نام Expectation Maximization استفاده میشود. در نهایت بعد از آموزش این مدلها که با استفاده از صدای مرجع انجام شده، میتوان برای آزمایش سامانه صدای یکی از افرادی که قبلا از صدای وی برای آموزش م.پ.م استفاده شده را به هر یک از م.پ.مها داد. م.پ.مای که کوچکترین عدد را تولید میکند به عنوان فرد شناسایی شده در نظر گرفته میشود.
سامانه بالا به دلایل مختلفی احتمال خطا دارد. شباهت صدای افراد به یکدیگر (که گاهی انسانها را نیز به اشتباه میاندازد)، صداهای حاشیه (نویز)، محدودیت حجم دادههای مرجع برای آموزش و غیره از جمله این اشتباهها هستند. برای بالا بردن ضریب اطمینان سامانه شناسایی گوینده روشهای مختلفی بکار میرود که هر ساله نیز با پیشرفت تحقیقات در دنیا به آنها اضافه میشود.
از جمله استفاده ترکیبی از تشخیص گفتار و تشخیص صدا که در آن نه تنها صدای گوینده بلکه کلمه(های) وی نیز مورد آزمایش قرار میگیرند. گوینده باید کلمات مشخصی را بکار ببرد تا سامانه به وی اجازه عبور بدهد. همچنین میتوان از یک عدد حداکثر برای مقایسه اعداد خروجی م.پ.م استفاده کرد بطوری که م.پ.م مورد نظر نه تنها باید کوچکترین عدد را بدهد بلکه باید این عدد از یک عدد مرجع نیز کوچکتر باشد. در نتیجه این تغییر در سامانه ضریب ایمنی سامانه بالا میرود. این ضریب ایمنی به قیمت بالا رفتن درصد ردّ افراد از روی خطا صورت میگیرد و باعث میشود شخصی که به او باید اجازه عبور داده شود چند بار رمز خود را برای سامانه تکرار کند. مانند تمام سامانههایی بهینهسازی پارامترهای مختلف برای بهترین عملکرد سامانه در شرایط مورد نیاز لازم است. (به عنوان مثال در ورودی اتاق کنترل یک نیروگاه هستهای نیاز به حفاظت زیادی دارد که ممکن است در مورد درب ورودی کتابخانه دانشگاه نیاز نباشد.)