OpenAI از امکان دسترسی کاربران عادی و کسبوکارها به API سرویس هوش مصنوعی جالبی به نام Whisper خبر داده است که توانایی تبدیل صوت به متن و حتی ترجمه آن را دارد. البته استفاده از قابلیتهای Whisper رایگان نیست و به ازای هر دقیقه فایل صوتی معادل 0.006 دلار هزینه دریافت میشود.
شرکت OpenAI بهتازگی دسترسی به API سرویس هوش مصنوعی Whisper را برای کاربران عادی و کسبوکارها امکانپذیر کرده است. Whisper یک سرویس مبتنی بر فناوری هوش مصنوعی با قابلیت تشخیص گفتار است که توانایی تبدیل گفتار به متن را دارد.
شرکت OpenAI مدعی شده که Whisper توانایی تشخیص چندین زبان مختلف را داشته و به راحتی میتواند گفتار و صوت را از این زبانها به انگلیسی ترجمه کند. Whisper توانایی پشتیبانی از فرمتهای مختلف از جمله MP4، M4A، MP3، MPEG، MPGA، WAV و WEBM را هم دارد.
البته این سرویس قدرتمند و جدید OpenAI رایگان نیست و برای هر یک دقیقه فایل صوتی 0.006 دلار هزینه دریافت میکند.
شرکتهای حوزه فناوری از جمله گوگل، آمازون و متا تعداد بیشماری سیستم تشخیص گفتار را توسعه دادهاند و در هسته نرمافزارها و خدمات خود از آنها استفاده کردهاند.
با این حال، به گفته گرگ براکمن (Greg Brockman) رئیس شرکت OpenAI چیزی که باعث شده Whisper از سایر ابزارهای تشخیص گفتار متمایز باشد، استفاده از 680 هزار ساعت داده چند زبانه جمعآوری شده از فضای وب است که منجر به بهبود تشخیص لهجه، نویز پس زمینه و اصطلاحات تخصصی توسط این سیستم هوش مصنوعی شده است.
براکمن در تازهترین صحبتهای خود اعلام کرده است که:
ما مدتی قبل یک مدل هوش مصنوعی مشابه منتشر کرده بودیم، با این حال این سیستم برای ایجاد یک اکوسیستم قدرتمند جدید توسط توسعهدهندگان کافی نبود. با این حال، API جدید همان مدل بزرگی است که ما آن را تا حد زیادی بهینهسازی کردهایم و شما میتوانید آن را به صورت منبع باز دریافت کنید. این هوش مصنوعی جدید بسیار سریعتر و کاربردیتر از قبل است.
مشکلات و محدودیتهای Whisper
به نظر میرسد که هوش مصنوعی Whisper همچنان به بهینهسازی بیشتر بهویژه در زمینه پیشبینی کلمات بعدی نیاز دارد. طبق اعلام OpenAI، از آنجا که این سیستم بر اساس حجم بسیار زیادی از دادههای پرسروصدا آموزش دیده است، در روند رونویسی اصوات ممکن است از کلماتی استفاده کند که هرگز در صوت ضبط شده شما وجود نداشته است.
در همین رابطه بخوانید:
- هوش مصنوعی و چت بات ها مکمل روابط انسانی خواهند بود، نه جایگزین آن
- خلق ترسناکترین ربات بر پایه هوش مصنوعی توسط یک مهندس نرمافزار
این مشکل به دلیل ضعف سیستم Whisper در روند پیشبینی کلمات بعدی رخ میدهد. علاوه بر این، Whisper در زبانهای مختلف نمیتواند به یک شکل عمل کند.
با وجود این مشکلات، OpenAI امیدوار است که توسعهدهندگان از قابلیتهای رونویسی Whisper برای بهبود برنامهها، خدمات، محصولات و ابزارهای موجود استفاده کنند. در حال حاضر اپلیکیشن یادگیری زبان مبتنی بر هوش مصنوعی Speak از API هوش مصنوعی Whisper استفاده میکند تا یک هم صحبت مجازی در اختیار کاربر قرار دهد.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت