معرفی Tacotron 2- سیستم جدید گوگل برای تبدیل مستقیم متن به گفتار

تاریخ : 1396/10/11 نویسنده: مریم رشنو
برچسب‌ها :	گوگل Google ، هوش مصنوعی Artificial Intelligence

واحد خبر mobile.ir : در حال حاضر هوش مصنوعی یکی از موضوعات جذاب در پژوهش‌های علمی محسوب می‌شود. این زمینه علمی آن‌ چنان در حال پیشرفت است که متخصصان فناوری اطلاعات درباره زمانی گمانه‌زنی می‌کنند که هوش ماشین‌ها از انسان هم فراتر خواهد رفت تا جایی که برخی شرکت‌ها به دنبال راه‌هایی برای جلوگیری از شورش ربات‌ها در آینده هستند. یکی از جالب‌ترین حوزه‌های کاربرد هوش مصنوعی، دستیاران شخصی هوشمند و ابزارهای ارتباط با انسان است. به تازگی جمعی از پژوهشگران گوگل به همراه محققی از دانشگاه کالیفرنیا تحقیقی انجام داده‌اند که در تاریخ 16 دسامبر سال جاری میلادی (25 آذر 1396) در سایت arxive.org منتشر شده است. در این پژوهش معماری شبکه عصبی با نام Tacotron 2 معرفی شده که هدف آن تبدیل مستقیم متن به گفتار است.

Introducing Googles Text to Speech System Tacotron 2

مهم‌ترین ویژگی این سیستم تولید صدایی بسیار مشابه انسان است تا جایی که در برخی موارد قابل تشخیص از صدای انسان نیست. در واقع Tacotron 2 نسل دوم فناوری گوگل است که دو شبکه عصبی عمیق (deep neural network) را در بر می‌گیرد. شبکه نخست متن را به یک طیف‌نگاشت (spectrogram) خاص تبدیل می‌کند که روشی بصری برای نشان دادن بسامد صوتی است. سپس خروجی طیف‌نگاشت (در قالب نمودار) به WaveNet می‌رود و بر اساس نمودار مذکور، عناصر صوتی مربوط تولید می‌شود. به بیان ساده‌تر، نمودار توسط WaveNet خوانده و به صدای واقعی تفسیر می‌شود. WaveNet تکنیکی مبتنی بر شبکه عصبی عمیق برای تولید صدای خام است که در سال 2016 توسط پژوهشگران شرکت هوش مصنوعی DeepMind (از زیرمجموعه‌های آلفابت) ابداع شده است. به کمک این تکنیک می‌توان با الگوگیری از گفتار واقعی انسان و مدل‌سازی مستقیم شکل موج‌ها، صدای واقعی‌تر و با شباهت بیشتر با صدای انسان تولید نمود.

گوگل برای مقایسه صدای تولیدشده توسط این سیستم با صدای انسان وب‌سایتی را طراحی کرده و نمونه‌هایی از هر دو صدا را در کنار یکدیگر قرار داده است. با گوش دادن به هر دو صدا متوجه خواهید شد که کیفیت این صداها به قدری مشابه است که به راحتی نمی‌توان تشخیص داد که کدام صدا توسط هوش مصنوعی تولید شده است. به علاوه، برای نشان دادن قدرت این سیستم، جملاتی را طراحی کرده که بیانگر عملکرد مناسب آن است.

Introducing Googles Text to Speech System Tacotron 2

مطابق اعلام گوگل، سیستم Tacotron 2 تلفظ را بر اساس معناشناسی عبارات یاد می‌گیرد و با میزان اندکی از خطا قادر به خواندن متن است. این سیستم نسبت به نشانه‌های سجاوندی (punctuation) حساس است و شیوه تلفظ خود را بر اساس علایم نقطه‌گذاری تغییر می‌دهد. به طور مثال، نحوه خواندن جمله «.This is your personal assistant, Google Home» که در آن نشانه ", “ پیش از Google Home به کار رفته با جمله «.This is your personal assistant Google Home» کاملا متفاوت خواهد بود. یا اگر واژه‌ای در جمله با حروف بزرگ نوشته شده باشد، توسط این سیستم با تأکید تلفظ خواهد شد، چرا که به طور معمول در زبان انگلیسی کلمات مهم در جمله با حروف بزرگ نگاشته می‌شوند.

این سیستم در مورد واژگان پیچیده و نام‌های دشوار عملکرد خوبی دارد. جالب آن‌که از پسِ تلفظ جملات اصطلاحاً زبان‌پیچان (tongue-twisters) مانند Peter Piper picked a peck of pickled peppers نیز به راحتی بر می‌آید. نکته قابل توجه دیگر در خصوص Tacotron 2 آن است که اگر متن از نظر نوشتاری غلط باشد، سیستم به طور نسبی توانایی تلفظ صحیح آن را خواهد داشت.

البته این سیستم در حال حاضر تنها به زبان انگلیسی و برای تقلید صدای یک زن آموزش دیده است و برای صحبت کردن همانند مردان یا با صدای متفاوت دیگری از زنان و همچنین زبان‌های دیگر، گوگل نیاز به آموزش مجدد سیستم خواهد داشت.

گوگل در حال حاضر از WaveNet برای تولید صداهای واقعی در دستیار صوتی هوشمند Google Assistant استفاده می‌کند و به نظر می‌رسد Tacotron 2 نیز به سرعت عملیاتی شود و در حد آزمایشگاهی باقی نماند.

منبع : Arxiv