هوش مصنوعی جدید مایکروسافت به نام VALL-E

هوش مصنوعی جدید مایکروسافت می‌تواند صدای هر کسی را شبیه سازی کند؛ خطر جعل هویت صوتی جدی شد!

توضیحات: بهادر قلندرپور; دسته: اخبار فناوری; 20 دی 1401 15:00

روز پنج‌شنبه، محققان شرکت مایکروسافت از یک مدل جدید هوش مصنوعی تبدیل متن به گفتار رونمایی کردند که می‌تواند پس از دریافت نمونه صدای فرد، آن را شبیه‌سازی کند. این سیستم هوش مصنوعی که VALL-E نام دارد، تنها پس از دریافت یک نمونه سه ثانیه‌ای از صدای افراد می‌تواند صدای آن‌ها را به‌راحتی تقلید کند.

محققان بر این باورند که ترکیب VALL-E با سایر سیستم‌های هوش مصنوعی مانند GPT-3 به آن‌ها اجازه خواهد داد تا اپلیکیشن‌های کاربردی تبدیل متن به گفتار با کیفیت بالا تولید کننده یا در سیستم‌های ویرایش گفتار که در آن‌ها هوش مصنوعی می‌تواند به‌جای افراد یک متن مشخص را بخواند، از آن استفاده شود.

هوش مصنوعی جدید مایکروسافت به نام VALL-E

نکته جالب آن است که VALL-E پس از ترکیب صدای شخص با جملات دیگر و یادگیری کامل آن، می‌تواند ادامه صحبت‌ها را به‌گونه‌ای انجام دهد که لحن احساسی گوینده نیز حفظ شود.

برخی محققان مایکروسافت VALL-E را مدل زبان کدک عصبی (Neural Codec Language Model) نام‌گذاری کرده‌اند، زیرا این هوش مصنوعی جدید بر اساس فناوری EnCodec که در اکتبر سال ۲۰۲۲ (اواسط مهر ۱۴۰۱) توسط شرکت متا معرفی شد، ساخته شده است.

برخلاف سایر روش‌های تبدیل متن به گفتار که معمولاً لحن گوینده با دست‌کاری موج‌های صوتی به دست می‌آیند، VALL-E کدهای کدک صوتی گسسته‌ را بر اساس صوت دریافت شده تولید می‌کند.

هوش مصنوعی جدید مایکروسافت به نام VALL-E

به عبارت ساده، این هوش مصنوعی صدای یک فرد را تجزیه‌وتحلیل کرده و نتایج به دست آمده را به اجزای مجزا (که توکن نامیده می‌شوند) تقسیم می‌کند. در نهایت، از این توکن‌ها به لطف EnCodec می‌توان برای بررسی چگونگی صدای فرد و استفاده از آن در جهت بازخوانی متن‌های جدید با همان صدا و لحن استفاده کرد.

در مقاله منتشر شده توسط مایکروسافت، سیستم Vall-E این‌گونه توضیح داده شده است:

برای بررسی ترکیب گفتار یک شخص، VALL-E بر اساس صوت ضبط شده ۳ ثانیه‌ای فرد مجموعه‌ای از توکن‌ها را ایجاد می‌کند و در نهایت توکن‌های صوتی تولید شده توسط VALL-E برای سنتز شکل نهایی موج صوتی با رمزگشایی کدک عصبی مربوطه مورد استفاده قرار می‌گیرد.

مایکروسافت قابلیت‌های سنتز و بررسی گفتار را به واسطه یک کتابخانه صوتی به نام LibriLight به VALL-E آموزش داده است. این کتابخانه صوتی توسط شرکت متا ایجاد شده و شامل بیش از 60 هزار ساعت سخنرانی به زبان انگلیسی از بیش از 7 هزار سخنران است که عمدتاً از کتاب‌های صوتی عمومی LibriVox استخراج شده‌اند.

مایکروسافت از قابلیت‌های ترسناک VALL-E با خبر است

ازآنجاکه می‌توان از هوش مصنوعی VALL-E برای فعالیت‌های خرابکارانه سوءاستفاده کرد، احتمالاً مایکروسافت کدهای این سیستم هوش مصنوعی جدید را به‌صورت عمومی در اختیار کاربران قرار نخواهد داد.

در همین رابطه بخوانید:

- هوش مصنوعی OpenAI را فراموش کنید؛ دانشمندان به دنبال ساخت ربات های هوشیار و زنده هستند!

البته به نظر می‌رسد که محققان مایکروسافت از آسیب‌های اجتماعی بالقوه این فناوری و احتمال سوءاستفاده از آن آگاه هستند، زیرا در یک مقاله جداگانه اعلام کرده‌اند که:

ازآنجاکه VALL-E می‌تواند با حفظ هویت گوینده هر متنی را بازگویی کند، ممکن است خطرات بالقوه‌ای مانند جعل هویت صوتی یا جعل هویت یک گوینده را به همراه داشته باشد. برای کاهش چنین خطراتی، می‌توان یک مدل تشخیص برای ایجاد تمایز تولید کرد؛ سیستمی که می‌تواند تشخیص دهد که آیا کلیپ صوتی توسط VALL-E سنتز شده است یا خیر. در هنگام توسعه بیشتر مدل‌های هوش مصنوعی از اصول اولیه مایکروسافت پیروی خواهیم کرد.