استخراج ویژگی های صوتی(2) - Artificial Intelligence

m.kia83 · ۰۳-۱۳-۱۳۸۷, ۰۹:۰۵ بعد از ظهر

معرفی ویژگی های صوتی :

این مرحله در پردازش انواع سیگنال ها اجتناب ناپذیر می باشد.یک سیگنال در یک بازه زمانی حاوی داده های نامربوط بسیاری می باشد که به صورت مستقیم می توان از آنها برای طبقه بندی استفاده کرد.مشکل اصلی در این زمینه یافتن ویژگی های موثری است که به روند طبقه بندی سرعت و دقت بالاتری بخشند.زیرا ویژگی های ضعیف علاوه بر دشوار ساختن عملیات طبقه بندی ، موجب دریافت نتایج ضعیف می گردند.در این راستا در ادامه انواع ویژگی های سیگنال های صوتی به اجمال مورد بررسی قرار می گیرند.
ویژگی های طیفی

ویژگی های طیفی ویژگی هایی هستند که یک طیف را در بازه های زمانی کوچک قابل تمایز می سازند.این ویژگی ها به خصوص درباره طبقه بندی سیگنال های صوتی بسیار موثر می باشند.اگر چه ویژگی های متفاوتی در مسایل مختلف قابل بحث هستند ، اما در مورد موضوعاتی مانند تشخیص آوا ها و ابزار های موسیقی ویژگی های موقتی از جایگاه ویژه ای برخوردارند.
در استخراج ویژگی های طیفی فاز مربوط به طیف قابل حذف است و به این منجر به 50 در صد کاهش اطلاعات خواهد شد.همچنین ساختار مناسب طیف در اکثر مواقع قابل حذف می باشد.همچنین می توان بسیاری از اطلاعات نامربوط دیگر را حذف نمود.تنها چیزی که باقی می ماند طیف ضخیم مربوط به توزیع انرژی می باشد که در طبقه بندی سیگنال های صوتی از اهمیت بالایی بر خوردار می باشد و در واقع پایه ای برای تشخیص ویژگی های گفتار و آوا های صوتی می باشد.
ضرایب Cepstral

ضرایب Cepstral که با c(k) نشان داده می شوند یک راه بسیار مناسب برای مدل کردن توزیع انرژی طیف می باشند.این ضرایب به صورت زیر قابل محاسبه اند :
C(k)=IDFT{log|DFT{x(n)}|}
که DFT تبدیل فوریه و IDFT معکوس آن می باشد.در نرم افزار MATLAB این ضرایب به صورت زیر قابل محاسبه اند :
c = real(ifft( log( abs( fft(x)))));
از آنجا که دقت عددی تولید شده بسیار کم اهمیت می باشد در فرمول بالا جز حقیقی به عنوان c در نظر گرفته شده است.
ضرایب Cepstral در فریم های کوتاهی در طول زمان محاسبه می شوند که البته مدل های محاسبه شده با محاسبه میانگین و واریانس هر ضریب در طول زمان قابل افزایش است.فقط از M ضریب اول Cepstral به عنوان ویژگی استفاده می شود.در مورد این ضرایب نکات زیر حائز اهمیت است :
• در صورت استفاده از کلیه ضرایب طیف به صورت دقیق به دست می آید.
• شمای طیف ضخیم با استفاده از ضرایب ابتدایی به دست می آید.
• دقت مدل سازی با توجه به تعداد ضرایب تعیین می شود.
• اولین ضریب که انرژی می باشد دور انداخته می شود.
معمولا M=f/2000 تخمین خوبی برای M می باشد که f در این فرمول فرکانس می باشد.

مشکل عمده در استفاده از ضرایب Cepstral خطی بودن مقیاس فرکانس می باشد.زیرا معمولا فرکانس هایی که در محدوده 100 تا 200 هرتز و 10 تا 20 کیلو هرتز هستند دارای اهمیت می باشند که ضرایب Cepstral این محدوده را به حساب نمی آورند.در این شرایط به نظر می آید که مقیاس لگاریتمی از فرکانس بتواند عملکرد بهتری داشته باشد.برای حل این مشکل باید توجه داشت که عمدتا ما به دنبال تشابهات و عدم تشابهات در مورد ادراک ها برای طبقه بندی هستیم ضمن اینکه ویژگی های مرتبط استخراج شده از این ادراک ها ما را به سمت یک کلاس بندی مطلوب هدایت می کند.بنابراین در راستای رسیدن به هدف نیاز به مرغوب سازی ویژگی ها با اعمال اندکی تغییر در آنها احساس می شود. البته باید توجه داشت که اعمال تغییرات کوچک در ویژگی ها منجر به اعمال تغییرات کوچک در داده های ادراکی می شود(و بالعکس).به دلیل پایین بودن وضوح این تغییرات به خاطر مناسب نبودن مقیاس نیاز به ضرایبی با درجه وضوح بالاتری در نشان دادن این تغییرات جزیی داریم . این نیاز منجر به استفاده از ضرایب جدیدی تحت عنوان ضرایب Mel-frequency cepstralمی شود که به طور کامل کمبود های یاد شده را پوشش می دهد.در ادامه به بررسی تاثیر انواع مقیاس ها بر روی کیفیت خواهیم پرداخت.

حال اگر در حوزه فرکانسی از مقیاس لگاریتمی استفاده شود به این ترتیب فاصله بین نت ها با وضوح بیشتری نسبت به حالت قبل قبل قابل مشاهده است.در واقع به داده های ادراکی نزدیک تر است.

همانطور که دیده شد استفاده از مقیاس لگاریتمی در دامنه و فرکانس منجر به وضوح بیشتر می شود.اعمال این تغییر بر روی ضرایب Cepstral منتهی به تولید یک سری از ویژگی های جدیدی خواهد شد که در قسمت بعد به آن پرداخته خواهد شد.

sama1212 · ۰۳-۲۲-۱۳۹۰, ۰۲:۴۹ بعد از ظهر

اگه برای استخراج ویژگی ها از نرم افزار متلب استفاده کرده ایدممنون میشم راهنماییم کنید

mahsa safa · ۰۴-۲۴-۱۳۹۲, ۰۲:۵۴ بعد از ظهر

سلام ... کسی میتونه در زمینه شناسایی احساسات در گفتار با شبکه عصبی کمکم کنه؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟
ممنوون میشم

kamran_kenzo · ۰۴-۲۴-۱۳۹۲, ۰۷:۱۲ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله mahsa safa

سلام ... کسی میتونه در زمینه شناسایی احساسات در گفتار با شبکه عصبی کمکم کنه؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟
ممنوون میشم

شناسایی احساسات هم مانند خیلی از مسائل یکی مسئله دسته بندی است (مثلا غمگین، ترسیده، خوشحال وغیره).
در ابتدا نیاز به داده هایی دارید که در آنها احساس مشخص باشد تا بتوانید توسط آن یک دسته بند بسازید. از سیگنال های گفتار ویژگی ها مناسب را استخراج کنید سپس با استفاده از ویژگی های استخراج شده و احساس مربوط به هرکدام دسته بند را آموزش دهید. پس از آن سیستم شما آماده است تا با دادن یک داده جدید احساس را مشخص کند.