ربات هوش مصنوعی تولید صدای VALL-E مایکروسافت

چرا مایکروسافت برترین شرکت هوش مصنوعی آینده دنیا خواهد بود؟

توضیحات: وحید علی‌محمدی; دسته: اخبار علمی و تکنولوژی; 21 دی 1401 18:00

دنیای هوش مصنوعی هر لحظه و ساعت در هر پیشرفت و خلق ابزارهای جذاب‌تر، عجیب‌تر و در عین حال ترسناک‌تر است. پس از رونمایی از همکاری مایکروسافت و OpenAI در زمینه‌های مختلف و استفاده از ربات هوش مصنوعی ChatGPT، جدیدترین شاهکار مایکروسافت ربات تبدیل نمونه صدای انسان به کلام کامل اوست که به نام VALL-E معرفی شده است. اما آیا با توجه به این مخلوقات هوش مصنوعی عجیب که ردموندی‌ها از آنها استفاده می‌کنند، می‌توان آنها را پرچمدار هوش مصنوعی پیشرفته در این زمینه دانست؟

هفته گذشته را باید یکی از جذاب‌ترین دوران برای مایکروسافت در حوزه هوش مصنوعی دانست که در آن ابتدا خبر تجمیع چت بات هوش مصنوعی هیجان انگیز ChatGPT با موتور جستجوی Bing منتشر شد؛ سپس خبر به کارگیری فناوری‌های هوش مصنوعی توسعه داده شده توسط OpenAI در ابزارهای آفیس به منظور توسعه هر چه بیشتر و خودکار شدن کارها مطرح گردید و در ادامه نیز از ربات تبدیل نمونه صدا به صدای کامل انسان موسوم به VALL-E رونمایی شد.

در واقع مایکروسافت که در حوزه ابزارهای کاربردی و فناوری یکی از شرکت‌های پیشروست تمامی تلاش خود را به خرج داده تا به نوعی بتواند یکی از سردمداران هوش مصنوعی پیشرفته در آینده دنیای فناوری باشد. در ادامه با هم نگاهی به مخلوقات هیجان‌انگیز این شرکت به صورت بومی یا در ارتباط با دیگر شرکت‌ها می‌پردازیم.

VALL-E موتور تولید صدای کامل انسان با استفاده از نمونه صوتی کوتاه

بنابر گزارش ArsTechnica، مایکروسافت به ‌تازگی از VALL-E (سیستم رمزگذار-رمزگشای صداافزار یا Voice-Aware Language-Learned Encoder-Decoder) خود رونمایی کرده که حقیقتاً یکی از عجیب‌ترین ربات‌های هوش مصنوعی عرضه شده تا به امروز است. این ربات یک مدل جدید هوش مصنوعی تبدیل متن به گفتار است که می‌تواند صدای هر کسی را تنها با استفاده از یک نمونه صوتی سه ثانیه‌ای آن شبیه‌سازی کند.

VALL-E مبتنی بر فناوری فشرده‌سازی صوتی EnCodec شرکت Meta توسعه داده شده که از هوش مصنوعی برای فشرده‌سازی صدای با کیفیت بالا به نرخ داده‌ای بسیار کمتر از فایل‌های MP3 استفاده می‌کند.

در همین رابطه بخوانید:

- تا 10 برابر فشرده سازی بیشتر نسبت به MP3 با کمک هوش مصنوعی EnCodec شرکت متا

فناوری توسعه داده شده برای خلق VALL-E را باید یک فناوری پیشگامانه و بسیار نوآورانه دانست. این فناوری به مدل اجازه می‌دهد تا نحوه بیان و صدای یک فرد را تجزیه و تحلیل کرده، سپس آن اطلاعات را به اجزای مجزایی که مایکروسافت آنها را «توکن» می‌نامد تجزیه کند. در ادامه VALL-E می‌تواند از این اطلاعات برای مطابقت با آنچه که در مورد چگونگی تولید صدای انسان در پایگاه داده‌اش ذخیره شده ترکیب کرده و به صورت کامل قادر به تولید هر کلامی با صدای شخص گردد.

امروزه سیستم های تبدیل متن به گفتار به داده های آموزشی با کیفیت بالا و بسیار تمیز نیاز دارند و این کار در یک استودیوی ضبط با تجهیزات حرفه ای انجام می شود. VALL-E اکنون می‌تواند صدای تقریباً هر کسی را بدون نیاز به گذراندن هفته‌ها در استودیو شبیه‌سازی کند.

قابلیت‌های VALL-E با استفاده از کتابخانه صوتی LibriLight که شامل 60 هزار ساعت گفتار از افراد مختلف به مدت بیش از هفت هزار ساعت بوده، تهیه شده است. این پایگاه داده غنی VALL-E را قادر می سازد تا تلقین بسیار شبیه با صدای واقعی فرد را به زبان انگلیسی تولید کند. خروجی این سیستم هنگامی که با سایر مدل‌های هوش مصنوعی مولد ترکیب شود، پتانسیل بسیار بالایی برای برنامه‌های کاربردی تبدیل متن به گفتار با کیفیت بالا را از خود نشان می‌دهد که شاید تصور آن هم بسیار دشوار باشد.

نکته جالب این است که برای عرضه نسخه آزمایشی VALL-E مایکروسافت مجموعه بزرگی از نمونه های تولید شده توسط VALL-E را در دسترس کاربران قرار داده که به شما امکان می دهد خودتان صدای تولید شده توسط نمونه سه ثانیه‌ای از صدای خودتان را بشنوید. در حالی که این پروژه هنوز به نسخه اولیه و غیرآزمایشی خود نرسیده، نمونه های تولید شده توسط VALL-E بسیار جالب و طبیعی به نظر می رسند؛ به نحوی که افراد آزمایش کننده بسیاری اذعان نموده‌اند که صدای تولیدی از نمونه صدای اصلی قابل تشخیص نیستند.

نکته دیگر این است که مایکروسافت اعلام نموده که با وجود قابلیت‌های هیجان‌انگیز VALL-E، از پتانسیل بسیار بالای این فناوری برای سوء استفاده از آن آگاه است. بنابر اعلام یکی از مدیران این پروژه، افراد با سوء نیت می‌توانند از قابلیت VALL-E برای اهداف مخرب خود مانند جعل هویت صوتی یا روش‌های دیگر استفاده کنند. برای کاهش این خطرات، مایکروسافت پیشنهاد می‌کند که یک مدل تشخیص ایجاد گردد تا بین گفتار سنتز شده و واقعی تولید شده توسط VALL-E تمایز قائل شود.

در نهایت باید اذعان کرد، VALL-E یک پیشرفت قابل توجه در فناوری تبدیل متن به گفتار است. توانایی این ابزار برای شبیه سازی صدای افراد تنها با استفاده از یک نمونه صوتی سه ثانیه ای برای استفاده های مختلف به نوعی یک فناوری انقلابی محسوب می‌شود. با این حال، مایکروسافت باید به توسعه و بهبود هر چه بیشتر فناوری VALL-E ادامه دهد و در عین حال اطمینان حاصل کند که اقدامات حفاظتی مناسب برای جلوگیری از سوء استفاده از آن دیده شده و کارآمد هستند.

ترکیب هوش مصنوعی OpenAI با مایکروسافت Office

اتفاق جذاب دیگر الحاق یک هوش مصنوعی پیشرفته به بسته مایکروسافت آفیس، محبوب‌ترین بسته نرم‌افزارهای اداری عمومی دنیاست. بنابر گزارش‌های منتشر شده، مایکروسافت در نظر دارد تا سیستم هوش مصنوعی OpenAI را در مجموعه نرم‌افزارهای آفیس از جمله ورد (Word)، اوت‌لوک (Outlook)، پاورپوینت (PowerPoin) و غیره ادغام کرده و به کاربران خود اجازه دهد تا بتوانند به طور خودکار با استفاده از نوشتن یک متن ساده و توصیف پروژه خود در این هوش مصنوعی، به نتیجه نهایی موردنظر خود برسند.

همچنین گزارش‌های بیشتر از درون شرکت مایکروسافت نشان می‌دهد که ردموندی‌ها طی یک سال گذشته بر روی ایجاد ابزارهای هوش مصنوعی شخصی برای نوشتن ایمیل‌ها و اسناد متنی با استفاده از مدل‌های یادگیری ماشین (Machine Learning) تمرکز داشته و می‌خواهند انقلاب بزرگی با تجمیع این فناوری با بسته آفیس ایجاد کنند.

در همین رابطه بخوانید:

- ربات ChatGPT چیست و چگونه می توانید از آن استفاده کنید؟

تجمیع هوش مصنوعی ChatGPT با موتور جستجوی Bing

طبق گزارش‌ها، مایکروسافت در حال برنامه‌ریزی شرایط برای راه‌اندازی نسخه‌ای از Bing است که از ChatGPT برای پاسخ به سؤالات جستجو استفاده می‌کند. در همین زمینه گزارش شده که مایکروسافت امیدوار است تا قبل از پایان ماه مارس (قبل از پایان سال 1401) این ویژگی جدید را در تلاش برای رقابت بیشتر سرویس جستجوی بینگ با گوگل راه اندازی کند.

با استفاده از فناوری ChatGPT بینگ می تواند به جای پیوند دادن نتایج به اطلاعات موجود در وب، پاسخ‌های انسانی بیشتری به سوالات ارائه دهد. هم گوگل و هم بینگ در حال حاضر اطلاعات مرتبطی را از پیوندها در بخش بالایی بسیاری از صفحات جستارهای جستجو نشان می‌دهند، اما پانل‌های نتایج Google به ویژه هنگامی که صحبت از جستجوی اطلاعات درباره افراد، مکان‌ها، سازمان‌ها و چیزها می‌شود، بسیار گسترده و حرفه‌‎ای‌تر عمل می‌کند.

جمع بندی

در نهایت و با توجه به اتفاقات فوق می‌توان مایکروسافت را یکی از اولین شرکت‌هایی نامید که تلاش نموده جهش بزرگی برای استفاده از پتانسیل بالای هوش مصنوعی در ابزارهای اختصاصی خود انجام دهد. تجمیع سرویس‌های توسعه داده شده توسط OpenAI و استفاده از آنها در محصولات شرکت به نوعی یک اعلان خطر به دیگر شرکت‌ها مانند گوگل، اپل، آمازون و حتی سامسونگ است که اگر دست به کار نشوند ممکن است بسیاری از بازارهای با پتانسیل بالای این حوزه را از دست بدهند.

مطالب مرتبط پیشنهادی

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

نظرات (1)

مهمان - Amir

مایکروسافت در مقابل گوگل تو هوش مصنوعی پشمک هم نیست
اپل و سامسونگ و امازون هم همینطور
مثال دستیار صوتی
الکسا امازون فنا
کورتانا مایکروسافت فنا
بیکسپی سامسونگ فنا
سیری اپل هم بخاطر خود اپل زنده هست وگرنه اون هم بازنده هست
اسیستنت گوگل پادشاه

حدود 2 سال قبل

0 دوست دارم پاسخ

تهیه شده توسط Komento

بهترین SSD های بازار ایران بر اساس قیمت (آبان 1404) + راهنمای خرید

بهترین مودم های VDSL موجود در بازار (پاییز 1404)

بهترین لپ تاپ های پیشنهادی بازار ایران بر اساس قیمت + مشاوره (آبان 1404)

چرا مایکروسافت برترین شرکت هوش مصنوعی آینده دنیا خواهد بود؟

VALL-E موتور تولید صدای کامل انسان با استفاده از نمونه صوتی کوتاه

ترکیب هوش مصنوعی OpenAI با مایکروسافت Office

تجمیع هوش مصنوعی ChatGPT با موتور جستجوی Bing