تشخیص کنش عاطفی و گفتاری در جملات
سلام،
در این تاپیک پیشنهاد می کنم در مورد پیاده سازی آهنگ و نواخت در تولید کنش های گفتاری و عاطفی بحث نماییم.
در مبحث تبدیل متن به گفتار پیشرفتهای قابل توجهی صورت گرفته است. در این مقوله دو معیار اساسی مورد بحث می باشند، قابل درک بودن متن تولیدی و طبیعی بودن آن. در حال حاضر معیار قابل درک بودن متن تولیدی در حد مطلوب می باشد و توجه پژوهشگران بر بالابردن معیار طبیعی بودن گفتار مصنوعی می باشد، منظور از طبیعی بودن تقلید لهجه و مهمتر از آن تقلید تن و آهنگ و نواخت و درنگ انسان ها در حین ادای جملات می باشد.
با کمی تامل می بینیم که این بحث بسیار مشکل می باشد، انسان ها زمانیکه شروع به خواندن یک داستان یا نمایشنامه می نمایند، جملات سوالی، امری و ... را با آهنگ خاصی بیان می نمایند، جمله شادی را با تن صدای بلند و احتمالا تند و جمله تاسف و اندوه را تن صدای آرام و کوتاه و جملات دارای حالت عصبانیت را با حالت مخصوص خود بیان می نمایند. اما چگونه می توان چنین امکانی را برای یک سیستم تبدیل متن به گفتار فراهم نمود.
تلاش های فراوانی در این زمینه انجام شده است (حداقل در زبان های غیر فارسی) و هنوز راه زیادی در پیش رو قرار دارد.
به نظر می رسد اولین مرحله، تشخیص کنش گفتاری ( خبری، امری، پرسشی، تعجب، تعارف و ... ) و کنش عاطفی (شادمانی، اندوه، عصبانیت و ...) جمله فعلی در متن داده شده به سیستم می باشد. این تشخیص می تواند به کمک قوانین هیوریستیک و یا استفاده از روش های پیشرفته مانند روش های بیزین و شبکه های عصبی اتفاق بیفتد.
از دوستانی که در این زمینه اطلاع یا تجربه موفق یا غیر موفقی دارند دعوت می شود در این بحث شرکت نمایند.
|