مایکروسافت به تازگی از سه مدل جدید هوش مصنوعی برای تولید صدا و تصویر رونمایی کرده است. این ابزارها با نام MAI منتشر شده و علاوه‌ بر ساخت محتوای صوتی و تصویری، توانایی تبدیل گفتار به متن را نیز دارند.

مدل‌های معرفی‌شده شامل MAI-Transcribe-1 و MAI-Voice-1 و MAI-Image-2 هستند که از طریق پلتفرم‌های Microsoft Foundry و MAI Playground در دسترس کاربران قرار گرفته‌اند. هرکدام از این مدل‌ها کاربرد مشخصی دارند.

مدل MAI-Transcribe-1 برای تبدیل گفتار به متن با دقت بالا در 25 زبان مختلف و سرعتی بیش از دو برابر نسخه‌های قبلی به کار می‌رود. همچنین مدل MAI-Voice-1 نیز برای تولید صدای طبیعی با حفظ ویژگی‌های گوینده، حتی در متن‌های طولانی و امکان ساخت صدای سفارشی با چند ثانیه نمونه صوتی استفاده می‌شود.

mai-2.jpg

در انتها مدل MAI-Image-2 را داریم که برای تولید سریع‌تر تصاویر نسبت به نسل قبل، با قابلیت استفاده در ابزارهایی مانند Bing و PowerPoint استفاده می‌شود. در آزمایش‌ها، مدل MAI-Transcribe-1 عملکرد بسیار خوبی از خود نشان داده و در بسیاری از زبان‌ها حتی از مدل Whisper شرکت OpenAI نیز پیشی گرفته است.

از سوی دیگر مدل MAI-Voice-1 به‌عنوان رقیبی جدی برای سرویس‌هایی مانند ElevenLabs مطرح می‌شود و توانایی تولید طیف متنوعی از صداها را دارد. مدل MAI-Image-2 نیز با افزایش سرعت و بهبود کارایی، تجربه تولید تصویر را ارتقا داده است.

نکته مهم دیگر این است که این مدل‌ها توسط تیم‌های کوچک کمتر از ۱۰ نفر توسعه یافته‌اند. این موضوع نشان می‌دهد ساخت فناوری‌های پیشرفته هوش مصنوعی لزوماً به منابع عظیم و تیم‌های بسیار بزرگ نیاز ندارد. همچنین، پس از بازنگری در قرارداد قبلی مایکروسافت با OpenAI، این شرکت اکنون آزادی بیشتری برای توسعه مستقل مدل‌های خود به‌دست آورده است.

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

0
نظر شما پس از تایید مدیر منتشر خواهد شد.
  • هیچ نظری یافت نشد

ورود به شهرسخت‌افزار

ثبت نام در شهر سخت افزار
ورود به شهر سخت افزار

ثبت نام در شهر سخت افزار

نام و نام خانوادگی(*)
لطفا نام خود را وارد کنید

ایمیل(*)
لطفا ایمیل خود را به درستی وارد کنید

رمز عبور(*)
لطفا رمز عبور خود را وارد کنید

شماره موبایل
Invalid Input

جزو کدام دسته از اشخاص هستید؟(*)

لطفا یکی از موارد را انتخاب کنید