باورنکردنی: آیفون 17 پرو مدل هوش مصنوعی را اجرا کرده که به 200 گیگابایت رم نیاز دارد!

توضیحات: وحید علی‌محمدی; دسته: اخبار فناوری; 03 فروردين 1405 19:00

شاید بتوان این خبر را یکی از جنجالی‌ترین اتفاقات حوزه موبایل در سال جاری دانست: آیفون 17 پرو قادر است یک مدل زبانی با 400 میلیارد پارامتر را درون خود دستگاه (بدون نیاز به اینترنت) اجرا کند! اما نکته جالب این است که این عملکرد تنها به دلیل قدرت دستگاه نبوده و بیشتر از آن به تکنیک بهینه‌سازی مهمی که مورد استفاده قرار گرفته حاصل شده است.

چرا برای اجرای مدل‌های LLM به رم بسیار زیاد نیاز است؟

اجرای مدل‌های زبانی بزرگ (LLM) به پلتفرم‌های قدرتمندی نیاز دارد. مدل‌های زبانی بزرگ، به مانند شبکه‌های عصبی گسترده‌ای هستند که از میلیون‌ها یا حتی میلیاردها «پارامتر» تشکیل شده‌اند. این پارامترها، وزن‌های متعددی هستند که در حین آموزش مدل، تنظیم می‌شوند و دانش را در خود ذخیره می‌کنند.

هرچه تعداد پارامترها بیشتر باشد، مدل پیچیده‌تر و قادر به درک و تولید متون دقیق‌تر و ظریف‌تر خواهد بود. این پیچیدگی و حجم داده‌ها، مستلزم دسترسی به حافظه رم بسیار زیادی است تا مدل بتواند به‌طور موثر بارگذاری و پردازش شود؛ چراکه دسترسی به داده‌ها از حافظه جانبی (مانند حافظه فلش) به‌مراتب کندتر از دسترسی به رم است و می‌تواند عملکرد مدل را به شدت کاهش دهد.

اجرای LLM که 200 گیگابایت رم نیاز دارد با تنها 12 گیگ رم آیفون 17 پرو

با این مقدمه حالا به خوبی می‌دانید که رم تا چه حد ممکن است اما در حالت عادی! به تازگی تیمی موفق به بهینه‌سازی عالی و استفاده از سخت‌افزار آیفون 17 پرو شده تا مدلی که در شرایط عادی برای اجرا به 200 گیگابایت حافظه رم نیاز دارد را روی این گوشی با تنها 12 گیگابایت حافظه رم اجرا کند.

این پروژه متن‌باز به نام Flash-MoE و توسط توسعه‌دهنده به نام anemll در شبکه X به نمایش گذاشته شده است. با این حال، روش اپل در اینجا متفاوت است: به جای بارگذاری کل مدل در حافظه، سیستم به صورت پویا و در صورت نیاز، بخش‌های مختلف آن را از حافظه جانبی فراخوانی می‌کند. همچنین، این دستگاه از معماری «Mixture of Experts» (ترکیب متخصصان) استفاده می‌کند که تنها بخش کوچکی از مدل در هر لحظه فعال است. این ترکیب هوشمندانه، امکان اجرای مدل را فراهم کرده است.

اما این خبر خوب تنها یک روی سکه است! در کنار موهبت عجیب اجرای مدل‌های فوق سنگین، نقطه ضعف اصلی این روش، سرعت پایین پردازش است. مدل توسعه‌یافته در این پروژه، تنها با 0.6 توکن در ثانیه متن تولید می‌کند، به این معنی که برای دریافت هر کلمه باید چند ثانیه صبر کنید. این کندی به حدی است که در آن حتی پاسخ دادن به دستورات ساده نیز طاقت‌فرسا به نظر می‌رسد. مصرف باتری نیز به طور قابل توجهی افزایش می‌یابد که طبیعتاً متناسب با این حجم از پردازش است.

نقاط تاریک این طرح جذاب!

با وجود این نکات تاریک باید گفت که رویکرد تیم خلاق داستان ما می‌تواند افقی امیدبخش برای آینده پردازش مدل‌های زبانی بسیار بزرگ در دستگاه‌های همراه و کوچکتر باشد. اجرای مدل‌های این‌چنینی به صورت کامل و بدون وابستگی به سرورهای ابری، تا همین چندی پیش حتی به عنوان یک ایده هم مطرح نمی‌شد.

در حال حاضر، یک شکاف آشکار بین امکانات و کاربرد عملی هوش مصنوعی روی دستگاه وجود دارد. مدل‌های کوچکتر همچنان انتخاب کاربردی‌تری هستند. اما آزمایش‌هایی از این دست، نویدبخش آن هستند که در آینده، گوشی‌های هوشمند به راحتی قادر به مدیریت وظایفی بزرگتر و پیچیده‌تر خواهند بود.