OpenAI از امکان دسترسی کاربران عادی و کسب‌وکارها به API سرویس هوش مصنوعی جالبی به نام Whisper خبر داده است که توانایی تبدیل صوت به متن و حتی ترجمه آن را دارد. البته استفاده از قابلیت‌های Whisper رایگان نیست و به ازای هر دقیقه فایل صوتی معادل 0.006 دلار هزینه دریافت می‌شود.

شرکت OpenAI به‌تازگی دسترسی به API سرویس هوش مصنوعی Whisper را برای کاربران عادی و کسب‌و‌کارها امکان‌پذیر کرده است. Whisper یک سرویس مبتنی بر فناوری هوش مصنوعی با قابلیت تشخیص گفتار است که توانایی تبدیل گفتار به متن را دارد.

دسترسی به API سرویس هوش مصنوعی Whisper آزاد شد

شرکت OpenAI مدعی شده که Whisper توانایی تشخیص چندین زبان مختلف را داشته و به راحتی می‌تواند گفتار و صوت را از این زبان‌ها به انگلیسی ترجمه کند. Whisper توانایی پشتیبانی از فرمت‌های مختلف از جمله MP4، M4A، MP3، MPEG، MPGA، WAV و WEBM را هم دارد.

البته این سرویس قدرتمند و جدید OpenAI رایگان نیست و برای هر یک دقیقه فایل صوتی 0.006 دلار هزینه دریافت می‌کند.

شرکت‌های حوزه فناوری از جمله گوگل، آمازون و متا تعداد بی‌شماری سیستم تشخیص گفتار را توسعه داده‌اند و در هسته نرم‌افزارها و خدمات خود از آن‌ها استفاده کرده‌اند.

دسترسی به API سرویس هوش مصنوعی Whisper آزاد شد

با این حال، به گفته گرگ براکمن (Greg Brockman) رئیس شرکت OpenAI چیزی که باعث شده Whisper از سایر ابزارهای تشخیص گفتار متمایز باشد، استفاده از 680 هزار ساعت داده چند زبانه جمع‌آوری شده از فضای وب است که منجر به بهبود تشخیص لهجه، نویز پس زمینه و اصطلاحات تخصصی توسط این سیستم هوش مصنوعی شده است.

براکمن در تازه‌ترین صحبت‌های خود اعلام کرده است که:

ما مدتی قبل یک مدل هوش مصنوعی مشابه منتشر کرده بودیم، با این حال این سیستم برای ایجاد یک اکوسیستم قدرتمند جدید توسط توسعه‌دهندگان کافی نبود. با این حال، API جدید همان مدل بزرگی است که ما آن را تا حد زیادی بهینه‌سازی کرده‌ایم و شما می‌توانید آن را به صورت منبع باز دریافت کنید. این هوش مصنوعی جدید بسیار سریع‌تر و کاربردی‌تر از قبل است.

مشکلات و محدودیت‌های Whisper

به نظر می‌رسد که هوش مصنوعی Whisper همچنان به بهینه‌سازی بیشتر به‌ویژه در زمینه پیش‌بینی کلمات بعدی نیاز دارد. طبق اعلام OpenAI، از آنجا که این سیستم بر اساس حجم بسیار زیادی از داده‌های پرسروصدا آموزش دیده است، در روند رونویسی اصوات ممکن است از کلماتی استفاده کند که هرگز در صوت ضبط شده شما وجود نداشته است.

در همین رابطه بخوانید:

- هوش مصنوعی و چت بات ها مکمل روابط انسانی خواهند بود، نه جایگزین آن
خلق ترسناک‌ترین ربات بر پایه هوش مصنوعی توسط یک مهندس نرم‌افزار

این مشکل به دلیل ضعف سیستم Whisper در روند پیش‌بینی کلمات بعدی رخ می‌دهد. علاوه بر این، Whisper در زبان‌های مختلف نمی‌تواند به یک شکل عمل کند.

با وجود این مشکلات، OpenAI امیدوار است که توسعه‌دهندگان از قابلیت‌های رونویسی Whisper برای بهبود برنامه‌ها، خدمات، محصولات و ابزارهای موجود استفاده کنند. در حال حاضر اپلیکیشن یادگیری زبان مبتنی بر هوش مصنوعی Speak از API هوش مصنوعی Whisper استفاده می‌کند تا یک هم صحبت مجازی در اختیار کاربر قرار دهد.

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

0
  • هیچ نظری یافت نشد

ورود به شهرسخت‌افزار

ثبت نام در شهر سخت افزار
ورود به شهر سخت افزار

ثبت نام در شهر سخت افزار

نام و نام خانوادگی(*)
لطفا نام خود را وارد کنید

ایمیل(*)
لطفا ایمیل خود را به درستی وارد کنید

رمز عبور(*)
لطفا رمز عبور خود را وارد کنید

شماره موبایل
Invalid Input

جزو کدام دسته از اشخاص هستید؟(*)

لطفا یکی از موارد را انتخاب کنید