یکی از فناوریهای قدیمی و بسیار محبوب در حوزه فایلهای چندرسانهای، فرمت MP3 است که از سالها پیش ما را از دست فایلهای حجیم صوتی نجات داده و این روزها فرمت قابل وب در پخش موسیقی استاندارد است. اما فناوری جدید ابداعی توسط شرکت متا وعده داده، با استفاده از هوش مصنوعی میتواند حجم فایلهای صوتی را تا 10 برابر کاهش دهد.
فرمت MP3 معرف حضور هر فردی است که حداقل یک بار اقدام به دانلود فایلهای موسیقی کرده یا در این حوزه فعالیت دارد. در این فرمت با فشردهسازی مناسب محتوای صوتی، حجم فایل متناسب با نرخ نمونه برداری و نرخ فشرده سازی، تعیین شده و کیفیت مطلوبی به کاربر انتقال داده میشود.
اما شرکت متا که این روزها تلاش میکند خود را از جلوداران حوزه هوش مصنوعی و متاورس جلوه دهد هفته گذشته از روش فشرده سازی فایلهای صوتی با بهرهگیری از هوش مصنوعی رونمایی کرد که میتواند به مثابه انقلابی در این حوزه تلقی شود.
EnCodec با هوش مصنوعی MP3 را بازنشسته میکند
بنابر گزارش ArsTechnica، تکنیک جدید متا که نام EnCodec برای آن انتخاب شده از هوش مصنوعی پیشرفتهای بهره خواهد برد که فایلهای با کیفیت بسیار بالای محتوا را تولید خواهد کرد که به صورت باورنکردنی، حجم آنها از نسخه 64kbps فایلهای MP3 یک ترک موسیقی نیز کمتر است؛ بدون آنکه هیچ افت کیفیتی در فایل ایجاد شود.
متا در مورد این فناوری میگوید که تکنیک «انکدک» میتواند به طور چشمگیری کیفیت صدای گفتار را در اتصالات با پهنای باند کم، مانند تماسهای تلفنی در مناطقی که خدمات نقطهای دارند، بهبود بخشد. این تکنیک برای موسیقی هم کار کارآمد بوده و میتواند کیفیتی باورنکردنی را با حجم داده بسیار پایین، منتقل کند.
متا این فناوری را در 25 اکتبر (3 آبان ماه) در مقالهای با عنوان «فشرده سازی صوتی عصبی با وفاداری بالا» که توسط محققین بخش هوش مصنوعی شرکت، الکساندر دفوسز، جید کوپت، گابریل سینایو و یوسی آدی نوشته شده بود، به ثبت رسانده است. متا همچنین تحقیقات خود را در وبلاگ خود به EnCodec خلاصه کرد.

نحوه فشرده سازی فایل صوتی توسط انکدک متا
متا روش خود را به عنوان یک سیستم سه قسمتی توصیف میکند که برای فشرده سازی صدا به اندازه هدف مورد نظر آموزش دیده است. ابتدا، رمزگذار (Encoder) داده های فشرده نشده را به نمایش "فضای نهفته" با نرخ فریم پایین تر تبدیل می کند.
سپس «کوانتایزر» نمایش را به اندازه مقیاس هدف فشرده کرده و در عین حال مهمترین اطلاعاتی را که بعداً برای بازسازی سیگنال اصلی استفاده میشود، پیگیری میکند (این سیگنال فشرده همان چیزی است که از طریق شبکه ارسال می شود یا روی دیسک ذخیره می شود). در نهایت، رمزگشا (Decoder) با استفاده از یک شبکه عصبی روی یک CPU، داده های فشرده شده را در زمان واقعی به صدا تبدیل می کند.
استفاده متا از تشخیصدهندهها برای ایجاد روشی برای فشردهسازی صدا تا حد امکان بدون از دست دادن عناصر کلیدی سیگنال که آن را متمایز و قابل تشخیص میکند، برگ برنده این فناوری است. در متن مقاله پیرامون این تکنیک آمده است:
روش فشرده سازی قدیمی با اتلاف، شناسایی تغییراتی است که توسط انسان قابل درک نیستند؛ زیرا بازسازی کامل در نرخ بیت پایین غیرممکن است. برای رسیدن به نتیجه بهتر، ما از تمایز دهنده ها برای بهبود کیفیت ادراکی نمونه های تولید شده استفاده می کنیم. فرایند رفت و برگشتی که در آن وظیفه تشخیص دهنده تمایز بین نمونه های واقعی و نمونه های بازسازی شده است. مدل فشرده سازی سعی میکند نمونه هایی را برای فریب دادن تمایزکنندگان با در اختیار گرفتن نمونه های بازسازی شده برای شبیه سازی ادراکی بیشتر به نمونه های اصلی تولید کند.

شایان ذکر است که استفاده از شبکه عصبی برای فشرده سازی و عمل عکس آن در حوزه صدا (به ویژه برای فشرده سازی گفتار)، تکنیک جدیدی نیست؛ اما محققان Meta ادعا می کنند که آنها اولین گروهی هستند که این فناوری را برای صدای استریو 48 کیلوهرتز (کمی بهتر از نرخ نمونه برداری 44.1 کیلوهرتز CD) به کار میبرند) که برای فایل های موسیقی توزیع شده در اینترنت معمول است.
کاربردهای فرمت فشرده سازی صوتی EnCodec
اما در مورد کاربردهای این فناوری، متا میگوید این «فشردهسازی صدا» مبتنی بر هوش مصنوعی میتواند از «تماسهای سریعتر و با کیفیت بهتر» در شرایط بد شبکه پشتیبانی کند. محققان همچنین به پیامدهای فراتر «انکدک» اشاره میکنند و میگویند که این فناوری در نهایت میتواند «تجارب متاورس غنی را بدون نیاز به بهبود پهنای باند عمده» ارائه دهد.
اگر پا را از این موارد نیز فراتر بگذاریم شاید روزی فایلهای صوتی موسیقی بسیار کوچکی را بتوان تولید کرد که مبدأ و ریشه اصلی ساخت آنها، EnCodec باشد. در حال حاضر، فناوری جدید متا در مرحله تحقیقاتی قرار گرفته ولی به جرأت میتوان به آیندهای روشن و جذاب آن اشاره کرد؛ آیندهای که در آن صدای با کیفیت بالا بتواند از پهنای باند کمتری استفاده کند.
مسلماً چنین فناوری میتواند راهکاری بسیار مناسب و جذاب برای شرکتهای مخابراتی باشد تا کیفیت تماس و مکالمه بسیار بالا را بر روی بسترهای شبکه موجود نیز به کار گرفته و تحولی در حوزه ارتباطات صوتی ایجاد کنند که مدتهاست، از فناوریهای ارائه شده در دهههای پایانی قرن بیستم میلادی استفاده میکند.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت