شرکت Meta یک ابزار هوش مصنوعی مولد جدید و بسیار توانمند در زمینه تبدیل متن به صدا معرفی کرده که قابلیتهای مختلفی همچون حذف نویز از کلیپ صوتی یا تبدیل متن به صوت در زبانهای مختلف را به همراه دارد. این هوش مصنوعی Voicebox نامیده شده است.
سیستمهای هوش مصنوعی مولد از جمله ChatGPT و Bard گوگل با استفاده از فناوریهای پردازش زبان طبیعی و یادگیری ماشینی میتوانند به پرسشهای شما پاسخ متنی بدهند.
حالا شرکت متا (فیسبوک سابق) از یک مدل هوش مصنوعی جدید خبر داده که همین کار را بسیار متفاوت از قبل و با تولید کلیپهای صوتی انجام میدهد.
متا روز جمعه هوش مصنوعی Voicebox را معرفی کرد که میتواند با استفاده از یک کلیپ صوتی ۲ ثانیهای، سنتز گفتار انجام دهد. به عبارت سادهتر، ویسباکس میتواند با استفاده از این کلیپ صوتی کوتاه سبک گفتار را متوجه شده و سپس متن دریافت شده را با صدا و گویش این کلیپ ۲ ثانیهای بازگو کند.
علاوه بر این، Voicebox قادر است بخشی از یک کلیپ صوتی که توسط نویز (صداهای ناخواسته در یک کلیپ صوتی مانند صدای عبور خودرو) غیر قابل استفاده شده را بازسازی کند.
تبدیل کلیپ صوتی شما به زبانهای دیگر!
نکته جالب آن است که هوش مصنوعی ویسباکس قادر است کلیپهای صوتی انگلیسی را دریافت کرده و آن را در زبانهای دیگر مانند فرانسوی، آلمانی، اسپانیایی، لهستانی یا پرتقالی باز پخش کند.
برای این کار تنها نیاز است یک نمونه ۲ ثانیهای از صدای خود را به همراه یک متن در اختیار این سیستم هوش مصنوعی قرار داده از آن بخواهید که متن را به زبان مورد نظر بر اساس نوع گفتار شما بازخوانی کند.
به گفته محققان شرکت متا، میتوان از Voicebox برای تولید صدا و گفتار طبیعیتر توسط ابزارهای مختلف مانند دستیاران مجازی یا شخصیتهای غیر بازیکن (NPC) در دنیای متاورس (دنیای دیجیتالی که افراد در آن به کار، بازی و معاشرت میپردازند) استفاده کرد.
در همین رابطه بخوانید:
- با هوش مصنوعی جدید OpenAI فایل های صوتی را رونویسی و ترجمه کنید
- ربات هوش مصنوعی چت جی پی تی (ChatGPT) چیست و چگونه کار می کند؟
ویسباکس به لطف روش آموزشی جدید متا موسوم به هماهنگسازی جریانی (Flow Matching) نیازی به حجم بالایی از دادههای ورودی نداشته و میتواند تا ۲۰ برابر سریعتر از سایر سیستمهای تبدیل متن به صدا عمل کند.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت