یکی از فناوری‌های قدیمی و بسیار محبوب در حوزه فایل‌های چندرسانه‌ای، فرمت MP3 است که از سال‌ها پیش ما را از دست فایل‌های حجیم صوتی نجات داده و این روزها فرمت قابل وب در پخش موسیقی استاندارد است. اما فناوری جدید ابداعی توسط شرکت متا وعده داده، با استفاده از هوش مصنوعی می‌تواند حجم فایل‌های صوتی را تا 10 برابر کاهش دهد.

فرمت MP3 معرف حضور هر فردی است که حداقل یک بار اقدام به دانلود فایل‌های موسیقی کرده یا در این حوزه فعالیت دارد. در این فرمت با فشرده‌سازی مناسب محتوای صوتی، حجم فایل متناسب با نرخ نمونه برداری و نرخ فشرده سازی، تعیین شده و کیفیت مطلوبی به کاربر انتقال داده می‌شود.

اما شرکت متا که این روزها تلاش می‌کند خود را از جلوداران حوزه هوش مصنوعی و متاورس جلوه دهد هفته گذشته از روش فشرده سازی فایل‌های صوتی با بهره‌گیری از هوش مصنوعی رونمایی کرد که می‌تواند به مثابه انقلابی در این حوزه تلقی شود.

EnCodec با هوش مصنوعی MP3 را بازنشسته می‌کند

بنابر گزارش ArsTechnica، تکنیک جدید متا که نام EnCodec برای آن انتخاب شده از هوش مصنوعی پیشرفته‌ای بهره خواهد برد که فایل‌های با کیفیت بسیار بالای محتوا را تولید خواهد کرد که به صورت باورنکردنی، حجم آنها از نسخه 64kbps فایل‌های MP3 یک ترک موسیقی نیز کمتر است؛ بدون آنکه هیچ افت کیفیتی در فایل ایجاد شود.

متا در مورد این فناوری می‌گوید که تکنیک «انکدک» می‌تواند به طور چشمگیری کیفیت صدای گفتار را در اتصالات با پهنای باند کم، مانند تماس‌های تلفنی در مناطقی که خدمات نقطه‌ای دارند، بهبود بخشد. این تکنیک برای موسیقی هم کار کارآمد بوده و می‌تواند کیفیتی باورنکردنی را با حجم داده بسیار پایین، منتقل کند.

متا این فناوری را در 25 اکتبر (3 آبان ماه) در مقاله‌ای با عنوان «فشرده سازی صوتی عصبی با وفاداری بالا» که توسط محققین بخش هوش مصنوعی شرکت، الکساندر دفوسز، جید کوپت، گابریل سینایو و یوسی آدی نوشته شده بود، به ثبت رسانده است. متا همچنین تحقیقات خود را در وبلاگ خود به EnCodec خلاصه کرد.

مقایسه انکدک متا با MP3
مقایسه انکدک متا با MP3

نحوه فشرده سازی فایل صوتی توسط انکدک متا

متا روش خود را به عنوان یک سیستم سه قسمتی توصیف می‌کند که برای فشرده سازی صدا به اندازه هدف مورد نظر آموزش دیده است. ابتدا، رمزگذار (Encoder) داده های فشرده نشده را به نمایش "فضای نهفته" با نرخ فریم پایین تر تبدیل می کند.

سپس «کوانتایزر» نمایش را به اندازه مقیاس هدف فشرده کرده و در عین حال مهم‌ترین اطلاعاتی را که بعداً برای بازسازی سیگنال اصلی استفاده می‌شود، پیگیری می‌کند (این سیگنال فشرده همان چیزی است که از طریق شبکه ارسال می شود یا روی دیسک ذخیره می شود). در نهایت، رمزگشا (Decoder) با استفاده از یک شبکه عصبی روی یک CPU، داده های فشرده شده را در زمان واقعی به صدا تبدیل می کند.

استفاده متا از تشخیص‌دهنده‌ها برای ایجاد روشی برای فشرده‌سازی صدا تا حد امکان بدون از دست دادن عناصر کلیدی سیگنال که آن را متمایز و قابل تشخیص می‌کند، برگ برنده این فناوری است. در متن مقاله پیرامون این تکنیک آمده است:

روش فشرده سازی قدیمی با اتلاف، شناسایی تغییراتی است که توسط انسان قابل درک نیستند؛ زیرا بازسازی کامل در نرخ بیت پایین غیرممکن است. برای رسیدن به نتیجه بهتر، ما از تمایز دهنده ها برای بهبود کیفیت ادراکی نمونه های تولید شده استفاده می کنیم. فرایند رفت و برگشتی که در آن وظیفه تشخیص دهنده تمایز بین نمونه های واقعی و نمونه های بازسازی شده است. مدل فشرده سازی سعی می‌کند نمونه هایی را برای فریب دادن تمایزکنندگان با در اختیار گرفتن نمونه های بازسازی شده برای شبیه سازی ادراکی بیشتر به نمونه های اصلی تولید کند.

فرمت جدید EnCodec شرکت متا
بلوک دیاگرامی که نحوه عملکرد فشرده سازی EnCodec متا را نشان می دهد

شایان ذکر است که استفاده از شبکه عصبی برای فشرده سازی و عمل عکس آن در حوزه صدا (به ویژه برای فشرده سازی گفتار)، تکنیک جدیدی نیست؛ اما محققان Meta ادعا می کنند که آنها اولین گروهی هستند که این فناوری را برای صدای استریو 48 کیلوهرتز (کمی بهتر از نرخ نمونه برداری 44.1 کیلوهرتز CD) به کار می‌برند) که برای فایل های موسیقی توزیع شده در اینترنت معمول است.

کاربردهای فرمت فشرده سازی صوتی EnCodec

اما در مورد کاربردهای این فناوری، متا می‌گوید این «فشرده‌سازی صدا» مبتنی بر هوش مصنوعی می‌تواند از «تماس‌های سریع‌تر و با کیفیت بهتر» در شرایط بد شبکه پشتیبانی کند. محققان همچنین به پیامدهای فراتر «انکدک» اشاره می‌کنند و می‌گویند که این فناوری در نهایت می‌تواند «تجارب متاورس غنی را بدون نیاز به بهبود پهنای باند عمده» ارائه دهد.

اگر پا را از این موارد نیز فراتر بگذاریم شاید روزی فایل‌های صوتی موسیقی بسیار کوچکی را بتوان تولید کرد که مبدأ و ریشه اصلی ساخت آنها، EnCodec باشد. در حال حاضر، فناوری جدید متا در مرحله تحقیقاتی قرار گرفته ولی به جرأت می‌توان به آینده‌ای روشن و جذاب آن اشاره کرد؛ آینده‌ای که در آن صدای با کیفیت بالا بتواند از پهنای باند کمتری استفاده کند.

مسلماً چنین فناوری می‌تواند راهکاری بسیار مناسب و جذاب برای شرکت‌های مخابراتی باشد تا کیفیت تماس و مکالمه بسیار بالا را بر روی بسترهای شبکه موجود نیز به کار گرفته و تحولی در حوزه ارتباطات صوتی ایجاد کنند که مدت‌هاست، از فناوری‌های ارائه شده در دهه‌های پایانی قرن بیستم میلادی استفاده می‌کند.

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

0
نظر شما پس از تایید مدیر منتشر خواهد شد.

نظرات (3)

  • مهمان - سامان

    یا پروردگار :o
    روزی رو میبینم که هوش مصنوعی حتی حدس بزنه اونقدر پیشرفته شه که فقط با فکر کردن به یه موضوع بتونید خودتون رو تو یه مکان جدید به صورت کامل و با همه حواس انسانی تصور کنید.

  • در پاسخ به: مهمان - سامان

    مگه فیلم هندیه :p:(
    او فیلم هندی دی اولار :D:p

  • برای فناوری هیچ مرزی نمیشه متصور شد ;)

ورود به شهرسخت‌افزار

ثبت نام در شهر سخت افزار
ورود به شهر سخت افزار

ثبت نام در شهر سخت افزار

نام و نام خانوادگی(*)
لطفا نام خود را وارد کنید

ایمیل(*)
لطفا ایمیل خود را به درستی وارد کنید

رمز عبور(*)
لطفا رمز عبور خود را وارد کنید

شماره موبایل
Invalid Input

جزو کدام دسته از اشخاص هستید؟(*)

لطفا یکی از موارد را انتخاب کنید