دنیای هوش مصنوعی هر لحظه و ساعت در هر پیشرفت و خلق ابزارهای جذابتر، عجیبتر و در عین حال ترسناکتر است. پس از رونمایی از همکاری مایکروسافت و OpenAI در زمینههای مختلف و استفاده از ربات هوش مصنوعی ChatGPT، جدیدترین شاهکار مایکروسافت ربات تبدیل نمونه صدای انسان به کلام کامل اوست که به نام VALL-E معرفی شده است. اما آیا با توجه به این مخلوقات هوش مصنوعی عجیب که ردموندیها از آنها استفاده میکنند، میتوان آنها را پرچمدار هوش مصنوعی پیشرفته در این زمینه دانست؟
هفته گذشته را باید یکی از جذابترین دوران برای مایکروسافت در حوزه هوش مصنوعی دانست که در آن ابتدا خبر تجمیع چت بات هوش مصنوعی هیجان انگیز ChatGPT با موتور جستجوی Bing منتشر شد؛ سپس خبر به کارگیری فناوریهای هوش مصنوعی توسعه داده شده توسط OpenAI در ابزارهای آفیس به منظور توسعه هر چه بیشتر و خودکار شدن کارها مطرح گردید و در ادامه نیز از ربات تبدیل نمونه صدا به صدای کامل انسان موسوم به VALL-E رونمایی شد.
در واقع مایکروسافت که در حوزه ابزارهای کاربردی و فناوری یکی از شرکتهای پیشروست تمامی تلاش خود را به خرج داده تا به نوعی بتواند یکی از سردمداران هوش مصنوعی پیشرفته در آینده دنیای فناوری باشد. در ادامه با هم نگاهی به مخلوقات هیجانانگیز این شرکت به صورت بومی یا در ارتباط با دیگر شرکتها میپردازیم.
VALL-E موتور تولید صدای کامل انسان با استفاده از نمونه صوتی کوتاه
بنابر گزارش ArsTechnica، مایکروسافت به تازگی از VALL-E (سیستم رمزگذار-رمزگشای صداافزار یا Voice-Aware Language-Learned Encoder-Decoder) خود رونمایی کرده که حقیقتاً یکی از عجیبترین رباتهای هوش مصنوعی عرضه شده تا به امروز است. این ربات یک مدل جدید هوش مصنوعی تبدیل متن به گفتار است که میتواند صدای هر کسی را تنها با استفاده از یک نمونه صوتی سه ثانیهای آن شبیهسازی کند.
VALL-E مبتنی بر فناوری فشردهسازی صوتی EnCodec شرکت Meta توسعه داده شده که از هوش مصنوعی برای فشردهسازی صدای با کیفیت بالا به نرخ دادهای بسیار کمتر از فایلهای MP3 استفاده میکند.
در همین رابطه بخوانید:
- تا 10 برابر فشرده سازی بیشتر نسبت به MP3 با کمک هوش مصنوعی EnCodec شرکت متا
فناوری توسعه داده شده برای خلق VALL-E را باید یک فناوری پیشگامانه و بسیار نوآورانه دانست. این فناوری به مدل اجازه میدهد تا نحوه بیان و صدای یک فرد را تجزیه و تحلیل کرده، سپس آن اطلاعات را به اجزای مجزایی که مایکروسافت آنها را «توکن» مینامد تجزیه کند. در ادامه VALL-E میتواند از این اطلاعات برای مطابقت با آنچه که در مورد چگونگی تولید صدای انسان در پایگاه دادهاش ذخیره شده ترکیب کرده و به صورت کامل قادر به تولید هر کلامی با صدای شخص گردد.
امروزه سیستم های تبدیل متن به گفتار به داده های آموزشی با کیفیت بالا و بسیار تمیز نیاز دارند و این کار در یک استودیوی ضبط با تجهیزات حرفه ای انجام می شود. VALL-E اکنون میتواند صدای تقریباً هر کسی را بدون نیاز به گذراندن هفتهها در استودیو شبیهسازی کند.
قابلیتهای VALL-E با استفاده از کتابخانه صوتی LibriLight که شامل 60 هزار ساعت گفتار از افراد مختلف به مدت بیش از هفت هزار ساعت بوده، تهیه شده است. این پایگاه داده غنی VALL-E را قادر می سازد تا تلقین بسیار شبیه با صدای واقعی فرد را به زبان انگلیسی تولید کند. خروجی این سیستم هنگامی که با سایر مدلهای هوش مصنوعی مولد ترکیب شود، پتانسیل بسیار بالایی برای برنامههای کاربردی تبدیل متن به گفتار با کیفیت بالا را از خود نشان میدهد که شاید تصور آن هم بسیار دشوار باشد.
نکته جالب این است که برای عرضه نسخه آزمایشی VALL-E مایکروسافت مجموعه بزرگی از نمونه های تولید شده توسط VALL-E را در دسترس کاربران قرار داده که به شما امکان می دهد خودتان صدای تولید شده توسط نمونه سه ثانیهای از صدای خودتان را بشنوید. در حالی که این پروژه هنوز به نسخه اولیه و غیرآزمایشی خود نرسیده، نمونه های تولید شده توسط VALL-E بسیار جالب و طبیعی به نظر می رسند؛ به نحوی که افراد آزمایش کننده بسیاری اذعان نمودهاند که صدای تولیدی از نمونه صدای اصلی قابل تشخیص نیستند.
نکته دیگر این است که مایکروسافت اعلام نموده که با وجود قابلیتهای هیجانانگیز VALL-E، از پتانسیل بسیار بالای این فناوری برای سوء استفاده از آن آگاه است. بنابر اعلام یکی از مدیران این پروژه، افراد با سوء نیت میتوانند از قابلیت VALL-E برای اهداف مخرب خود مانند جعل هویت صوتی یا روشهای دیگر استفاده کنند. برای کاهش این خطرات، مایکروسافت پیشنهاد میکند که یک مدل تشخیص ایجاد گردد تا بین گفتار سنتز شده و واقعی تولید شده توسط VALL-E تمایز قائل شود.
در نهایت باید اذعان کرد، VALL-E یک پیشرفت قابل توجه در فناوری تبدیل متن به گفتار است. توانایی این ابزار برای شبیه سازی صدای افراد تنها با استفاده از یک نمونه صوتی سه ثانیه ای برای استفاده های مختلف به نوعی یک فناوری انقلابی محسوب میشود. با این حال، مایکروسافت باید به توسعه و بهبود هر چه بیشتر فناوری VALL-E ادامه دهد و در عین حال اطمینان حاصل کند که اقدامات حفاظتی مناسب برای جلوگیری از سوء استفاده از آن دیده شده و کارآمد هستند.
ترکیب هوش مصنوعی OpenAI با مایکروسافت Office
اتفاق جذاب دیگر الحاق یک هوش مصنوعی پیشرفته به بسته مایکروسافت آفیس، محبوبترین بسته نرمافزارهای اداری عمومی دنیاست. بنابر گزارشهای منتشر شده، مایکروسافت در نظر دارد تا سیستم هوش مصنوعی OpenAI را در مجموعه نرمافزارهای آفیس از جمله ورد (Word)، اوتلوک (Outlook)، پاورپوینت (PowerPoin) و غیره ادغام کرده و به کاربران خود اجازه دهد تا بتوانند به طور خودکار با استفاده از نوشتن یک متن ساده و توصیف پروژه خود در این هوش مصنوعی، به نتیجه نهایی موردنظر خود برسند.
همچنین گزارشهای بیشتر از درون شرکت مایکروسافت نشان میدهد که ردموندیها طی یک سال گذشته بر روی ایجاد ابزارهای هوش مصنوعی شخصی برای نوشتن ایمیلها و اسناد متنی با استفاده از مدلهای یادگیری ماشین (Machine Learning) تمرکز داشته و میخواهند انقلاب بزرگی با تجمیع این فناوری با بسته آفیس ایجاد کنند.
در همین رابطه بخوانید:
- ربات ChatGPT چیست و چگونه می توانید از آن استفاده کنید؟
تجمیع هوش مصنوعی ChatGPT با موتور جستجوی Bing
طبق گزارشها، مایکروسافت در حال برنامهریزی شرایط برای راهاندازی نسخهای از Bing است که از ChatGPT برای پاسخ به سؤالات جستجو استفاده میکند. در همین زمینه گزارش شده که مایکروسافت امیدوار است تا قبل از پایان ماه مارس (قبل از پایان سال 1401) این ویژگی جدید را در تلاش برای رقابت بیشتر سرویس جستجوی بینگ با گوگل راه اندازی کند.
با استفاده از فناوری ChatGPT بینگ می تواند به جای پیوند دادن نتایج به اطلاعات موجود در وب، پاسخهای انسانی بیشتری به سوالات ارائه دهد. هم گوگل و هم بینگ در حال حاضر اطلاعات مرتبطی را از پیوندها در بخش بالایی بسیاری از صفحات جستارهای جستجو نشان میدهند، اما پانلهای نتایج Google به ویژه هنگامی که صحبت از جستجوی اطلاعات درباره افراد، مکانها، سازمانها و چیزها میشود، بسیار گسترده و حرفهایتر عمل میکند.
جمع بندی
در نهایت و با توجه به اتفاقات فوق میتوان مایکروسافت را یکی از اولین شرکتهایی نامید که تلاش نموده جهش بزرگی برای استفاده از پتانسیل بالای هوش مصنوعی در ابزارهای اختصاصی خود انجام دهد. تجمیع سرویسهای توسعه داده شده توسط OpenAI و استفاده از آنها در محصولات شرکت به نوعی یک اعلان خطر به دیگر شرکتها مانند گوگل، اپل، آمازون و حتی سامسونگ است که اگر دست به کار نشوند ممکن است بسیاری از بازارهای با پتانسیل بالای این حوزه را از دست بدهند.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت