Artificial Intelligence - هوش مصنوعی - نمايش پست تنها

elena moh · ۰۵-۱۴-۱۳۹۲, ۱۱:۱۳ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله m.kia83

ضرایب Mel-Frequency cepstral

این ضرایب نوع بهبود یافته از ضریب cepstral می باشند.

مراحل کار برای تولید این ضرایب به این صورت است که پس از پنجره بندی و ایجاد فریم ها از سیگنال ورودی تبدیل فوریه گسسته بر روی هر یک از این فریم ها اعمال شده و حاصل به filterbank داده می شود.این فیلتر بر روی دامنه فرکانس ها اعمال شده و آن را یکنواخت می سازد.
یک راه برای تولید Mel-frequency درونیابی بر روی فرکانس گسسته اصلی می باشد.پس از اعمال فیلتر و سپس تبدیل cosine گسسته(DCT) MFCC بدست آمده است.
مقیاس مورد استفاده در فرکانس Mel به صورت زیر محاسبه می شود :
Mel(f)=2595log(1+f/700)
پس از محاسبه این ضریب در ادامه به پاره ای از دلایل موفقیت این ضریب خواهیم پرداخت.
یکی از دلایل کارایی بالا این ضریب در درجه وضوح بالای آن می باشد.به این معنی که تغییرات جزیی با استفاده از این مقیاس اثر خود را به خوبی نشان می دهند.نقطه قوت دیگر این روش در استفاده از DCT می باشد که علاوه بر اینکه spectral fine structure را حذف می کند و باعث خلاصه سازی داده ها می شود همبستگی بین ویژگی ها را از بین برده و عملیات طبقه بندی را بهبود می بخشد.
MFCC در کنار سایر ویژگی ها می تواند به صورت یک بردار پیوسته از ویژگی ها بیان شود.به عنوان یکی از ویژگی های مورد استفاده در کنار MFCC می توان به مرکز ثقل طیف اشاره کرد.
ویژگی دیگر قابل بررسی درباره طیف پهنای باند آن می باشد.
به عنوان ویژگی های دیگر به خصوص در باره صدا های موزون می توان به بی نظمی طیفی اشاره کرد که در واقع انحراف از دامنه های موزون طیف می باشد.

ویژگی های زمانی

در این بخش به توصیف ویژگی های زمانی یک سیگنال صوتی و تحولات آن با گذشت زمان می پردازیم.این ویژگی دارای اثرات مشخص تری می باشد.برای استخراج این ویژگی یک سطح میانی از سیگنال ورودی با خصوصیات زیر در نظر می گیریم :
• Power envelope سیگنال با سرعت 100 هرتز تا 1 کیلو هرتز نمونه برداری شده است.
• یا Power envelopes سیگنال دارای 3 تا 40 زیرباند می باشد.
• فاز و ساختار مناسب طیف از آن حذف شده اند.
در راستای استخراج ویژگی ها دو مسئله به عنوان نمونه قابل طرح است.مسئله اول دسته بندی اصوات صوتی می باشد.در این مسئله ویژگی های زمانی قابل استخراج بدین شرحند :
• ویژگی زمان خیز :که فاصله زمانی بین شروع تا لحظه ماکسیمم شدن دامنه می باشد.
• شروع غیر همزمانی در فرکانس های متفاوت
• نوسان فرکانسی
• نوسان دامنه ای
امادر مورد مسئله دوم که طبقه بندی عمومی سیگنال های صوتی می باشد ، ویژگی های قابل استخراج بدین شرحند :
• نوسان دامنه ای
• MFCC ویژگی های زمانی
در ادامه پس از آشنایی با چند ویژگی زمانی به ویژگی هایی که در دامنه زمانی محاسبه می شوند می پردازیم.
در پاره ای از اوقات به دلیل کم کردن حجم محاسباتی نیاز به یک سری از ویژگی های بسیار روشن و سهل وصول و تا حد ممکن دوری از تبدیل فوریه در استخراج ویژگی ها می باشد.اولین ویژگی از این دسته Zero-crossing rate می باشد.
این ویژگی تا حد زیادی با مرکز ثقل طیف در ارتباط می باشد.

به عنوان یک ویژگی دیگر از ویژگی های زمانی قابل استخراج از سیگنال می توان Short-time energy را نام برد.این ویژگی یکی از ضعیف ترین ویژگی های سیگنال های صوتی می باشد که البته در صورت تنوع آماری می تواند مفید واقع شود.

سلام
یک سئوال در رابطه با mfcc برام پیش اومده که اگه بتونید بهم کمک کنید ممنون می شم.
همانطور که می دونید مراحل mfcc به این ترتیب می باشد.
Fourier transform -> mel filter bank -> logarithm -> discrete cosine transform.
که من درک کاملی تا مرحله log دارم اما بعد از اینکه log گرفتیم، چه طوری با DCT ناحیه فرکانس پایین را از فرکانس بالا جدا کنیم؟
لطفا در صورت امکان عملکرد DCT را برام توضیح دهید.