روز پنجشنبه، محققان شرکت مایکروسافت از یک مدل جدید هوش مصنوعی تبدیل متن به گفتار رونمایی کردند که میتواند پس از دریافت نمونه صدای فرد، آن را شبیهسازی کند. این سیستم هوش مصنوعی که VALL-E نام دارد، تنها پس از دریافت یک نمونه سه ثانیهای از صدای افراد میتواند صدای آنها را بهراحتی تقلید کند.
محققان بر این باورند که ترکیب VALL-E با سایر سیستمهای هوش مصنوعی مانند GPT-3 به آنها اجازه خواهد داد تا اپلیکیشنهای کاربردی تبدیل متن به گفتار با کیفیت بالا تولید کننده یا در سیستمهای ویرایش گفتار که در آنها هوش مصنوعی میتواند بهجای افراد یک متن مشخص را بخواند، از آن استفاده شود.
نکته جالب آن است که VALL-E پس از ترکیب صدای شخص با جملات دیگر و یادگیری کامل آن، میتواند ادامه صحبتها را بهگونهای انجام دهد که لحن احساسی گوینده نیز حفظ شود.
برخی محققان مایکروسافت VALL-E را مدل زبان کدک عصبی (Neural Codec Language Model) نامگذاری کردهاند، زیرا این هوش مصنوعی جدید بر اساس فناوری EnCodec که در اکتبر سال ۲۰۲۲ (اواسط مهر ۱۴۰۱) توسط شرکت متا معرفی شد، ساخته شده است.
برخلاف سایر روشهای تبدیل متن به گفتار که معمولاً لحن گوینده با دستکاری موجهای صوتی به دست میآیند، VALL-E کدهای کدک صوتی گسسته را بر اساس صوت دریافت شده تولید میکند.
به عبارت ساده، این هوش مصنوعی صدای یک فرد را تجزیهوتحلیل کرده و نتایج به دست آمده را به اجزای مجزا (که توکن نامیده میشوند) تقسیم میکند. در نهایت، از این توکنها به لطف EnCodec میتوان برای بررسی چگونگی صدای فرد و استفاده از آن در جهت بازخوانی متنهای جدید با همان صدا و لحن استفاده کرد.
در مقاله منتشر شده توسط مایکروسافت، سیستم Vall-E اینگونه توضیح داده شده است:
برای بررسی ترکیب گفتار یک شخص، VALL-E بر اساس صوت ضبط شده ۳ ثانیهای فرد مجموعهای از توکنها را ایجاد میکند و در نهایت توکنهای صوتی تولید شده توسط VALL-E برای سنتز شکل نهایی موج صوتی با رمزگشایی کدک عصبی مربوطه مورد استفاده قرار میگیرد.
مایکروسافت قابلیتهای سنتز و بررسی گفتار را به واسطه یک کتابخانه صوتی به نام LibriLight به VALL-E آموزش داده است. این کتابخانه صوتی توسط شرکت متا ایجاد شده و شامل بیش از 60 هزار ساعت سخنرانی به زبان انگلیسی از بیش از 7 هزار سخنران است که عمدتاً از کتابهای صوتی عمومی LibriVox استخراج شدهاند.
مایکروسافت از قابلیتهای ترسناک VALL-E با خبر است
ازآنجاکه میتوان از هوش مصنوعی VALL-E برای فعالیتهای خرابکارانه سوءاستفاده کرد، احتمالاً مایکروسافت کدهای این سیستم هوش مصنوعی جدید را بهصورت عمومی در اختیار کاربران قرار نخواهد داد.
در همین رابطه بخوانید:
- هوش مصنوعی OpenAI را فراموش کنید؛ دانشمندان به دنبال ساخت ربات های هوشیار و زنده هستند!
البته به نظر میرسد که محققان مایکروسافت از آسیبهای اجتماعی بالقوه این فناوری و احتمال سوءاستفاده از آن آگاه هستند، زیرا در یک مقاله جداگانه اعلام کردهاند که:
ازآنجاکه VALL-E میتواند با حفظ هویت گوینده هر متنی را بازگویی کند، ممکن است خطرات بالقوهای مانند جعل هویت صوتی یا جعل هویت یک گوینده را به همراه داشته باشد. برای کاهش چنین خطراتی، میتوان یک مدل تشخیص برای ایجاد تمایز تولید کرد؛ سیستمی که میتواند تشخیص دهد که آیا کلیپ صوتی توسط VALL-E سنتز شده است یا خیر. در هنگام توسعه بیشتر مدلهای هوش مصنوعی از اصول اولیه مایکروسافت پیروی خواهیم کرد.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت