متا هوش مصنوعی Voicebox را معرفی کرد؛ تبدیل متن به کلیپ صوتی با صدای شما!

توضیحات: بهادر قلندرپور; دسته: اخبار فناوری; 27 خرداد 1402 17:00

شرکت Meta یک ابزار هوش مصنوعی مولد جدید و بسیار توانمند در زمینه تبدیل متن به صدا معرفی کرده که قابلیت‌های مختلفی همچون حذف نویز از کلیپ صوتی یا تبدیل متن به صوت در زبان‌های مختلف را به همراه دارد. این هوش مصنوعی Voicebox نامیده شده است.

سیستم‌های هوش مصنوعی مولد از جمله ChatGPT و Bard گوگل با استفاده از فناوری‌های پردازش زبان طبیعی و یادگیری ماشینی می‌توانند به پرسش‌های شما پاسخ متنی بدهند.

هوش مصنوعی Voicebox توسط متا معرفی شد

حالا شرکت متا (فیس‌بوک سابق) از یک مدل هوش مصنوعی جدید خبر داده که همین کار را بسیار متفاوت از قبل و با تولید کلیپ‌های صوتی انجام می‌دهد.

متا روز جمعه هوش مصنوعی Voicebox را معرفی کرد که می‌تواند با استفاده از یک کلیپ صوتی ۲ ثانیه‌ای، سنتز گفتار انجام دهد. به عبارت ساده‌تر، ویس‌باکس می‌تواند با استفاده از این کلیپ صوتی کوتاه سبک گفتار را متوجه شده و سپس متن دریافت شده را با صدا و گویش این کلیپ ۲ ثانیه‌ای بازگو کند.

علاوه بر این، Voicebox قادر است بخشی از یک کلیپ صوتی که توسط نویز (صداهای ناخواسته در یک کلیپ صوتی مانند صدای عبور خودرو) غیر قابل استفاده شده را بازسازی کند.

تبدیل کلیپ صوتی شما به زبان‌های دیگر!

نکته جالب آن است که هوش مصنوعی ویس‌باکس قادر است کلیپ‌های صوتی انگلیسی را دریافت کرده و آن را در زبان‌های دیگر مانند فرانسوی، آلمانی، اسپانیایی، لهستانی یا پرتقالی باز پخش کند.

برای این کار تنها نیاز است یک نمونه ۲ ثانیه‌ای از صدای خود را به همراه یک متن در اختیار این سیستم هوش مصنوعی قرار داده از آن بخواهید که متن را به زبان مورد نظر بر اساس نوع گفتار شما بازخوانی کند.

هوش مصنوعی Voicebox توسط متا معرفی شد

به گفته محققان شرکت متا، می‌توان از Voicebox برای تولید صدا و گفتار طبیعی‌تر توسط ابزارهای مختلف مانند دستیاران مجازی یا شخصیت‌های غیر بازیکن (NPC) در دنیای متاورس (دنیای دیجیتالی که افراد در آن به کار، بازی و معاشرت می‌پردازند) استفاده کرد.

در همین رابطه بخوانید:

- با هوش مصنوعی جدید OpenAI فایل های صوتی را رونویسی و ترجمه کنید
- ربات هوش مصنوعی چت جی پی تی (ChatGPT) چیست و چگونه کار می کند؟

ویس‌باکس به لطف روش آموزشی جدید متا موسوم به هماهنگ‌سازی جریانی (Flow Matching) نیازی به حجم بالایی از داده‌های ورودی نداشته و می‌تواند تا ۲۰ برابر سریع‌تر از سایر سیستم‌های تبدیل متن به صدا عمل کند.