مایکروسافت به تازگی از سه مدل جدید هوش مصنوعی برای تولید صدا و تصویر رونمایی کرده است. این ابزارها با نام MAI منتشر شده و علاوه بر ساخت محتوای صوتی و تصویری، توانایی تبدیل گفتار به متن را نیز دارند.
مدلهای معرفیشده شامل MAI-Transcribe-1 و MAI-Voice-1 و MAI-Image-2 هستند که از طریق پلتفرمهای Microsoft Foundry و MAI Playground در دسترس کاربران قرار گرفتهاند. هرکدام از این مدلها کاربرد مشخصی دارند.
مدل MAI-Transcribe-1 برای تبدیل گفتار به متن با دقت بالا در 25 زبان مختلف و سرعتی بیش از دو برابر نسخههای قبلی به کار میرود. همچنین مدل MAI-Voice-1 نیز برای تولید صدای طبیعی با حفظ ویژگیهای گوینده، حتی در متنهای طولانی و امکان ساخت صدای سفارشی با چند ثانیه نمونه صوتی استفاده میشود.

در انتها مدل MAI-Image-2 را داریم که برای تولید سریعتر تصاویر نسبت به نسل قبل، با قابلیت استفاده در ابزارهایی مانند Bing و PowerPoint استفاده میشود. در آزمایشها، مدل MAI-Transcribe-1 عملکرد بسیار خوبی از خود نشان داده و در بسیاری از زبانها حتی از مدل Whisper شرکت OpenAI نیز پیشی گرفته است.
از سوی دیگر مدل MAI-Voice-1 بهعنوان رقیبی جدی برای سرویسهایی مانند ElevenLabs مطرح میشود و توانایی تولید طیف متنوعی از صداها را دارد. مدل MAI-Image-2 نیز با افزایش سرعت و بهبود کارایی، تجربه تولید تصویر را ارتقا داده است.
نکته مهم دیگر این است که این مدلها توسط تیمهای کوچک کمتر از ۱۰ نفر توسعه یافتهاند. این موضوع نشان میدهد ساخت فناوریهای پیشرفته هوش مصنوعی لزوماً به منابع عظیم و تیمهای بسیار بزرگ نیاز ندارد. همچنین، پس از بازنگری در قرارداد قبلی مایکروسافت با OpenAI، این شرکت اکنون آزادی بیشتری برای توسعه مستقل مدلهای خود بهدست آورده است.













نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت