Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > پردازش صوت، گفتار و زبان طبيعی ! > پردازش سيگنال ديجيتال


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۳-۱۹-۱۳۸۷, ۱۱:۵۶ بعد از ظهر   #1 (لینک دائم)
عضو جدید
 
آواتار m.kia83
 
تاريخ عضويت: ارديبهشت ۱۳۸۷
پست ها: 9
تشكرها: 0
47 تشكر در 7 پست
پيش فرض استخراج ویژگی های صوتی(3)

ضرایب Mel-Frequency cepstral


این ضرایب نوع بهبود یافته از ضریب cepstral می باشند.

مراحل کار برای تولید این ضرایب به این صورت است که پس از پنجره بندی و ایجاد فریم ها از سیگنال ورودی تبدیل فوریه گسسته بر روی هر یک از این فریم ها اعمال شده و حاصل به filterbank داده می شود.این فیلتر بر روی دامنه فرکانس ها اعمال شده و آن را یکنواخت می سازد.
یک راه برای تولید Mel-frequency درونیابی بر روی فرکانس گسسته اصلی می باشد.پس از اعمال فیلتر و سپس تبدیل cosine گسسته(DCT) MFCC بدست آمده است.
مقیاس مورد استفاده در فرکانس Mel به صورت زیر محاسبه می شود :
Mel(f)=2595log(1+f/700)
پس از محاسبه این ضریب در ادامه به پاره ای از دلایل موفقیت این ضریب خواهیم پرداخت.
یکی از دلایل کارایی بالا این ضریب در درجه وضوح بالای آن می باشد.به این معنی که تغییرات جزیی با استفاده از این مقیاس اثر خود را به خوبی نشان می دهند.نقطه قوت دیگر این روش در استفاده از DCT می باشد که علاوه بر اینکه spectral fine structure را حذف می کند و باعث خلاصه سازی داده ها می شود همبستگی بین ویژگی ها را از بین برده و عملیات طبقه بندی را بهبود می بخشد.
MFCC در کنار سایر ویژگی ها می تواند به صورت یک بردار پیوسته از ویژگی ها بیان شود.به عنوان یکی از ویژگی های مورد استفاده در کنار MFCC می توان به مرکز ثقل طیف اشاره کرد.
ویژگی دیگر قابل بررسی درباره طیف پهنای باند آن می باشد.
به عنوان ویژگی های دیگر به خصوص در باره صدا های موزون می توان به بی نظمی طیفی اشاره کرد که در واقع انحراف از دامنه های موزون طیف می باشد.

ویژگی های زمانی


در این بخش به توصیف ویژگی های زمانی یک سیگنال صوتی و تحولات آن با گذشت زمان می پردازیم.این ویژگی دارای اثرات مشخص تری می باشد.برای استخراج این ویژگی یک سطح میانی از سیگنال ورودی با خصوصیات زیر در نظر می گیریم :
• Power envelope سیگنال با سرعت 100 هرتز تا 1 کیلو هرتز نمونه برداری شده است.
• یا Power envelopes سیگنال دارای 3 تا 40 زیرباند می باشد.
• فاز و ساختار مناسب طیف از آن حذف شده اند.
در راستای استخراج ویژگی ها دو مسئله به عنوان نمونه قابل طرح است.مسئله اول دسته بندی اصوات صوتی می باشد.در این مسئله ویژگی های زمانی قابل استخراج بدین شرحند :
• ویژگی زمان خیز :که فاصله زمانی بین شروع تا لحظه ماکسیمم شدن دامنه می باشد.
• شروع غیر همزمانی در فرکانس های متفاوت
• نوسان فرکانسی
• نوسان دامنه ای
امادر مورد مسئله دوم که طبقه بندی عمومی سیگنال های صوتی می باشد ، ویژگی های قابل استخراج بدین شرحند :
• نوسان دامنه ای
• MFCC ویژگی های زمانی
در ادامه پس از آشنایی با چند ویژگی زمانی به ویژگی هایی که در دامنه زمانی محاسبه می شوند می پردازیم.
در پاره ای از اوقات به دلیل کم کردن حجم محاسباتی نیاز به یک سری از ویژگی های بسیار روشن و سهل وصول و تا حد ممکن دوری از تبدیل فوریه در استخراج ویژگی ها می باشد.اولین ویژگی از این دسته Zero-crossing rate می باشد.
این ویژگی تا حد زیادی با مرکز ثقل طیف در ارتباط می باشد.

به عنوان یک ویژگی دیگر از ویژگی های زمانی قابل استخراج از سیگنال می توان Short-time energy را نام برد.این ویژگی یکی از ضعیف ترین ویژگی های سیگنال های صوتی می باشد که البته در صورت تنوع آماری می تواند مفید واقع شود.
m.kia83 آفلاين است   پاسخ با نقل قول
از m.kia83 تشكر كرده اند:
83202200 (۰۴-۸-۱۳۸۹), hotanyahya (۰۵-۱۶-۱۳۸۸), khabar22 (۰۹-۲۵-۱۳۹۱), qwert5 (۰۲-۲۵-۱۳۹۱), sama1212 (۰۳-۱۲-۱۳۹۰), samiran90 (۰۸-۴-۱۳۹۲), tazaree (۰۱-۲۳-۱۳۹۳)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
قديمي ۰۴-۱۲-۱۳۸۷, ۱۱:۵۰ قبل از ظهر   #2 (لینک دائم)
عضو جدید
 
آواتار nokhbeh100
 
تاريخ عضويت: خرداد ۱۳۸۷
پست ها: 2
تشكرها: 0
2 تشكر در 1 پست
پيش فرض یه سوال داشتم

سلام
یه سوال داشتم، میشه بگین با چه زبانی و از چه طریقی به اون سطح از داده های صوتی دسترسی میشه پیدا کرد چون من خیلی دنبالش گشتم ولی پیداش نکردم
با تشکر
nokhbeh100 آفلاين است   پاسخ با نقل قول
قديمي ۰۴-۲۱-۱۳۸۷, ۱۱:۱۱ قبل از ظهر   #3 (لینک دائم)
عضو جدید
 
آواتار m.kia83
 
تاريخ عضويت: ارديبهشت ۱۳۸۷
پست ها: 9
تشكرها: 0
47 تشكر در 7 پست
پيش فرض !

دوست عزیز تقریبا با همه زبانهای برنامه نویسی و با استفاده از کتابخونه هایی مثله Direct sound می شه به داده های صوتی دسترسی پیدا کرد.
m.kia83 آفلاين است   پاسخ با نقل قول
قديمي ۰۴-۲۳-۱۳۸۷, ۰۹:۵۵ قبل از ظهر   #4 (لینک دائم)
عضو جدید
 
آواتار nokhbeh100
 
تاريخ عضويت: خرداد ۱۳۸۷
پست ها: 2
تشكرها: 0
2 تشكر در 1 پست
پيش فرض

ممنون اما یه نمونه های خوبی رو تو visual basic, vb, active server pages (ASP),java, javscript,c, c++, c__ , vbscript,active server pages, ASP, vbscript,SQL, database, informix, oracle, SQL Server,Perl, CGI,Delphi, PHP,Free source code for the taking. Over five million lines of progra پیدا کردم
به هر حال ممنون
nokhbeh100 آفلاين است   پاسخ با نقل قول
از nokhbeh100 تشكر كرده اند:
khabar22 (۰۹-۲۵-۱۳۹۱), sama1212 (۰۳-۱۲-۱۳۹۰)
قديمي ۰۵-۱۴-۱۳۹۲, ۱۱:۱۳ قبل از ظهر   #5 (لینک دائم)
عضو جدید
 
آواتار elena moh
 
تاريخ عضويت: مرداد ۱۳۹۲
پست ها: 1
تشكرها: 0
0 تشكر در 0 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله m.kia83 نمايش پست
ضرایب Mel-Frequency cepstral


این ضرایب نوع بهبود یافته از ضریب cepstral می باشند.

مراحل کار برای تولید این ضرایب به این صورت است که پس از پنجره بندی و ایجاد فریم ها از سیگنال ورودی تبدیل فوریه گسسته بر روی هر یک از این فریم ها اعمال شده و حاصل به filterbank داده می شود.این فیلتر بر روی دامنه فرکانس ها اعمال شده و آن را یکنواخت می سازد.
یک راه برای تولید Mel-frequency درونیابی بر روی فرکانس گسسته اصلی می باشد.پس از اعمال فیلتر و سپس تبدیل cosine گسسته(DCT) MFCC بدست آمده است.
مقیاس مورد استفاده در فرکانس Mel به صورت زیر محاسبه می شود :
Mel(f)=2595log(1+f/700)
پس از محاسبه این ضریب در ادامه به پاره ای از دلایل موفقیت این ضریب خواهیم پرداخت.
یکی از دلایل کارایی بالا این ضریب در درجه وضوح بالای آن می باشد.به این معنی که تغییرات جزیی با استفاده از این مقیاس اثر خود را به خوبی نشان می دهند.نقطه قوت دیگر این روش در استفاده از DCT می باشد که علاوه بر اینکه spectral fine structure را حذف می کند و باعث خلاصه سازی داده ها می شود همبستگی بین ویژگی ها را از بین برده و عملیات طبقه بندی را بهبود می بخشد.
MFCC در کنار سایر ویژگی ها می تواند به صورت یک بردار پیوسته از ویژگی ها بیان شود.به عنوان یکی از ویژگی های مورد استفاده در کنار MFCC می توان به مرکز ثقل طیف اشاره کرد.
ویژگی دیگر قابل بررسی درباره طیف پهنای باند آن می باشد.
به عنوان ویژگی های دیگر به خصوص در باره صدا های موزون می توان به بی نظمی طیفی اشاره کرد که در واقع انحراف از دامنه های موزون طیف می باشد.

ویژگی های زمانی


در این بخش به توصیف ویژگی های زمانی یک سیگنال صوتی و تحولات آن با گذشت زمان می پردازیم.این ویژگی دارای اثرات مشخص تری می باشد.برای استخراج این ویژگی یک سطح میانی از سیگنال ورودی با خصوصیات زیر در نظر می گیریم :
• Power envelope سیگنال با سرعت 100 هرتز تا 1 کیلو هرتز نمونه برداری شده است.
• یا Power envelopes سیگنال دارای 3 تا 40 زیرباند می باشد.
• فاز و ساختار مناسب طیف از آن حذف شده اند.
در راستای استخراج ویژگی ها دو مسئله به عنوان نمونه قابل طرح است.مسئله اول دسته بندی اصوات صوتی می باشد.در این مسئله ویژگی های زمانی قابل استخراج بدین شرحند :
• ویژگی زمان خیز :که فاصله زمانی بین شروع تا لحظه ماکسیمم شدن دامنه می باشد.
• شروع غیر همزمانی در فرکانس های متفاوت
• نوسان فرکانسی
• نوسان دامنه ای
امادر مورد مسئله دوم که طبقه بندی عمومی سیگنال های صوتی می باشد ، ویژگی های قابل استخراج بدین شرحند :
• نوسان دامنه ای
• MFCC ویژگی های زمانی
در ادامه پس از آشنایی با چند ویژگی زمانی به ویژگی هایی که در دامنه زمانی محاسبه می شوند می پردازیم.
در پاره ای از اوقات به دلیل کم کردن حجم محاسباتی نیاز به یک سری از ویژگی های بسیار روشن و سهل وصول و تا حد ممکن دوری از تبدیل فوریه در استخراج ویژگی ها می باشد.اولین ویژگی از این دسته Zero-crossing rate می باشد.
این ویژگی تا حد زیادی با مرکز ثقل طیف در ارتباط می باشد.

به عنوان یک ویژگی دیگر از ویژگی های زمانی قابل استخراج از سیگنال می توان Short-time energy را نام برد.این ویژگی یکی از ضعیف ترین ویژگی های سیگنال های صوتی می باشد که البته در صورت تنوع آماری می تواند مفید واقع شود.

سلام
یک سئوال در رابطه با mfcc برام پیش اومده که اگه بتونید بهم کمک کنید ممنون می شم.
همانطور که می دونید مراحل mfcc به این ترتیب می باشد.
Fourier transform -> mel filter bank -> logarithm -> discrete cosine transform.
که من درک کاملی تا مرحله log دارم اما بعد از اینکه log گرفتیم، چه طوری با DCT ناحیه فرکانس پایین را از فرکانس بالا جدا کنیم؟
لطفا در صورت امکان عملکرد DCT را برام توضیح دهید.
elena moh آفلاين است   پاسخ با نقل قول
قديمي ۱۱-۲۰-۱۳۹۲, ۰۱:۲۴ قبل از ظهر   #6 (لینک دائم)
عضو جدید
 
آواتار m.kavan30
 
تاريخ عضويت: آذر ۱۳۹۲
پست ها: 1
تشكرها: 0
0 تشكر در 0 پست
پيش فرض

سلام
استخراخ ویژگی صوتی1 هم وجود داشته؟یا موجود هستش؟
ممنون میشم بذارید واس دانلود
m.kavan30 آفلاين است   پاسخ با نقل قول
پاسخ



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۱۲:۲۷ بعد از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design