Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > پردازش صوت، گفتار و زبان طبيعی ! > پردازش صدا و گفتار! > تشخيص گوينده(Speaker Identification)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
 
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۵-۱۸-۱۳۸۹, ۰۳:۵۶ بعد از ظهر   #1 (لینک دائم)
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Smile تشخیص گوینده

۱- تعریف و کاربردها

تشخیص گوینده۱ عبارت است از فرایند تشخیص خودکار هویت شخص صحبت‌کننده بر اساس اطلاعات یکتای موجود در موج صوتی صحبت او.
این فن‌آوری امکان تشخیص هویت شخص گوینده و در نتیجه امکان کنترل دسترسی او در هنگام استفاده از خدماتی همانند شماره‌گیری صوتی، بانکداری تلفنی، خرید تلفنی، خدمات دسترسی به پایگاه داده‌ها، خدمات اطلاعاتی، پست الکترونیکی صوتی، کنترل امنیتی برای ورود به قلمروهای اطلاعاتی محرمانه و دسترسی از راه دور به کامپیوترها را فراهم می‌آورد. علاوه بر موارد فوق که عموماً با کامپیوتر و کاربران آن سروکار دارند این فن‌آوری در مسائل قضایی نیز کاربردهای خاص خود را دارد.

۲- انواع سیستمهای تشخیص گوینده
سیستمهای تشخیص گوینده از لحاظ روش استفاده، همانند آنچه برای کلیه‌ی سیستمهای امنیتی مبتنی بر زیست‌سنجی در فصل پیش بیان شد، عموماً در دو دسته‌ی سیستمهای تأیید هویت گوینده۲ و سیستمهای بازشناسی هویت گوینده۳ قرار می‌گیرند.
در یک سیستم تأیید هویت گوینده، شخص عموماً با انتخاب یا وارد کردن نام یکی از کاربران خاص سیستم ادعا می‌کند که او همان کاربر ثبت‌شده‌ی سیستم است. در این حالت سیستم وظیفه دارد ویژگیهای صوتی شخص مدعی را با ویژگیهای صوتی ذخیره شده‌ی کاربر ثبت شده‌ی مورد ادعا مقایسه نموده و با استفاده از نتیجه‌ی به دست آمده ادعای شخص را بپذیرد یا رد کند.
در یک سیستم بازشناسی هویت گوینده، شخص صحبت کننده ادعای هویت یک کاربر خاص ثبت شده را نمی‌نماید و این سیستم است که وظیفه دارد که او را در میان کاربران ثبت شده‌ی سیستم بازشناسی نماید و یا تشخیص دهد که ویژگیهای صوتی او با هیچ یک از کاربران ثبت شده همخوانی ندارد.
به نظر می‌رسد در آینده کاربردهای سیستمهای نوع دوم در سیستمهای بزرگ چند کاربره چشمگیرتر از کاربردهای سیستم نوع اول باشد،۴ هر چند که در اساس این دو سیستم تفاوتهای چشمگیری مشاهده نمی‌شود.
شکل شماره‌ی 1 ساختار اساسی این دو نوع سیستم تشخیص گوینده را به تصویر می‌کشد.
شکل شماره‌ی 1- ساختار اساسی سیستمهای بازشناسی هویت و تأیید هویت گوینده (منبع شماره‌ی 1)
سیستمهای تشخیص گوینده از دیدگاه دیگری به دو دسته‌ی سیستمهای تشخیص گوینده‌ی وابسته به متن۵ و سیستمهای تشخیص گوینده‌ی مستقل از متن۶ تقسیم می‌شوند. روش اول نیازمند آن است که گوینده کلمات کلیدی یا جمله‌های ثابتی را چه در مرحله‌ی یادگیری و چه در آزمونهای تشخیصی بیان کند، در حالی که دومی وابسته به جمله یا کلمه‌ی خاصی نیست.
هر دو روش دارای یک مشکل هستند و آن این است که می‌توان از صدای ضبط شده‌ی کاربران ثبت‌شده برای ورود به سیستم استفاده نمود و به آسانی سیستم را فریب داد. برای غلبه بر این مشکل روشهایی وجود دارند مثلاً می‌توان از یک مجموعه‌ی کوچک از کلمات مانند ارقام به عنوان کلمات کلیدی استفاده نمود و در هر زمان به صورت تصادفی از کاربر خواست که یک دنباله از آنها را بیان کند. حتی این روش هم کاملاً قابل اطمینان نیست چرا که می‌تواند با استفاده از تجهیزات پیشرفته‌ی الکترونیکی که توانایی تولید دنباله‌های عبارات را دارند فریب داده شود. سیستمهای دارای ساختار اخیر به سیستمهای تشخیص گوینده‌ی اعلان متن۷ (متن تولید شده توسط ماشین) معروفند.
۳- روشهای پیاده‌سازی
تقریباً در تمامی سیستمهای تشخیص هویت با استفاده از فرایندی که به تشخیص الگو۸ شهرت دارد شباهت هر زوج نمونه‌ نمره‌گذاری می‌شود. استفاده از این روش نیازمند وجود دسته‌ای از خصایص منحصر به فرد و قابل مقایسه که از ویژگی انتخاب شده به عنوان ورودی سیستم استخراج شده می‌باشد.
ویژگیهای فیزیکی افراد نظیر ساختار اندامهای صوتی، اندازه‌ی چاله‌ی بینی و ویژگیهای تارهای صوتی منحصر به فرد بوده و از طریق الگوریتمهای پردازش سیگنال به صورت پارامترهای خصیصه‌ای۹ یا مجموعه‌ی خصایص۱۰ قابل استخراج می‌باشند. این حقیقت پایه‌ی روشهای پیاده‌سازی سیستمهای تشخیص صحبت می‌باشند.
مهمترین گلوگاه سیستمهای تشخیص گوینده (و به تبع هم خانواده بودن مهمترین گلوگاه سیستمهای تشخیص صحبت) نحوه‌ی عملکرد آنها در مکانهای دارای شرایط متفاوت با شرایط آزمایشگاهی که از ویژگیهای عمده‌ی آنها می‌توان به حضور نویز در سیستم اشاره کرد می‌باشد. برای غلبه بر این مشکل از روشهای هنجارسازی۱۱ استفاده می‌گردد که این روشها نیز انواع مختلفی دارند و در سیستمهای تجاری موجود، اغلب نمود پیدا می‌کنند.
۴- منابع فصل
1) Sadaoki Furui, NTT Human Interface Laboratories, Tokyo, Japan, Speaker Recognition, from clsu.cs.ogj.edu
2) Martin Cultenbruner, Audiotry User Interfaces for Desktop, Mobile and Embeded Applications
3) Richard Duncan, Mississipi State University, A Description And Comparison Of The Feature Sets Used In Speech Processing

*speaker recognition
*speaker verification systems
*speaker identification systems
*این عقیده، نظر منبع شماره‌ی ۲ است [ر.ک. صفحه‌ی 19 آن منبع]
*text-dependent speaker recognition systems
*text-independent speaker recognition systems
*text-prompted speaker recognition systems
*pattern recognition
*feature parameters
*feature set
*normalization
Astaraki آفلاين است   پاسخ با نقل قول

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
 



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 
ابزارهاي تاپيک
نحوه نمايش

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۵:۴۵ بعد از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design