شاید بتوان این خبر را یکی از جنجالیترین اتفاقات حوزه موبایل در سال جاری دانست: آیفون 17 پرو قادر است یک مدل زبانی با 400 میلیارد پارامتر را درون خود دستگاه (بدون نیاز به اینترنت) اجرا کند! اما نکته جالب این است که این عملکرد تنها به دلیل قدرت دستگاه نبوده و بیشتر از آن به تکنیک بهینهسازی مهمی که مورد استفاده قرار گرفته حاصل شده است.
چرا برای اجرای مدلهای LLM به رم بسیار زیاد نیاز است؟
اجرای مدلهای زبانی بزرگ (LLM) به پلتفرمهای قدرتمندی نیاز دارد. مدلهای زبانی بزرگ، به مانند شبکههای عصبی گستردهای هستند که از میلیونها یا حتی میلیاردها «پارامتر» تشکیل شدهاند. این پارامترها، وزنهای متعددی هستند که در حین آموزش مدل، تنظیم میشوند و دانش را در خود ذخیره میکنند.
هرچه تعداد پارامترها بیشتر باشد، مدل پیچیدهتر و قادر به درک و تولید متون دقیقتر و ظریفتر خواهد بود. این پیچیدگی و حجم دادهها، مستلزم دسترسی به حافظه رم بسیار زیادی است تا مدل بتواند بهطور موثر بارگذاری و پردازش شود؛ چراکه دسترسی به دادهها از حافظه جانبی (مانند حافظه فلش) بهمراتب کندتر از دسترسی به رم است و میتواند عملکرد مدل را به شدت کاهش دهد.

اجرای LLM که 200 گیگابایت رم نیاز دارد با تنها 12 گیگ رم آیفون 17 پرو
با این مقدمه حالا به خوبی میدانید که رم تا چه حد ممکن است اما در حالت عادی! به تازگی تیمی موفق به بهینهسازی عالی و استفاده از سختافزار آیفون 17 پرو شده تا مدلی که در شرایط عادی برای اجرا به 200 گیگابایت حافظه رم نیاز دارد را روی این گوشی با تنها 12 گیگابایت حافظه رم اجرا کند.
این پروژه متنباز به نام Flash-MoE و توسط توسعهدهنده به نام anemll در شبکه X به نمایش گذاشته شده است. با این حال، روش اپل در اینجا متفاوت است: به جای بارگذاری کل مدل در حافظه، سیستم به صورت پویا و در صورت نیاز، بخشهای مختلف آن را از حافظه جانبی فراخوانی میکند. همچنین، این دستگاه از معماری «Mixture of Experts» (ترکیب متخصصان) استفاده میکند که تنها بخش کوچکی از مدل در هر لحظه فعال است. این ترکیب هوشمندانه، امکان اجرای مدل را فراهم کرده است.
اما این خبر خوب تنها یک روی سکه است! در کنار موهبت عجیب اجرای مدلهای فوق سنگین، نقطه ضعف اصلی این روش، سرعت پایین پردازش است. مدل توسعهیافته در این پروژه، تنها با 0.6 توکن در ثانیه متن تولید میکند، به این معنی که برای دریافت هر کلمه باید چند ثانیه صبر کنید. این کندی به حدی است که در آن حتی پاسخ دادن به دستورات ساده نیز طاقتفرسا به نظر میرسد. مصرف باتری نیز به طور قابل توجهی افزایش مییابد که طبیعتاً متناسب با این حجم از پردازش است.
نقاط تاریک این طرح جذاب!
با وجود این نکات تاریک باید گفت که رویکرد تیم خلاق داستان ما میتواند افقی امیدبخش برای آینده پردازش مدلهای زبانی بسیار بزرگ در دستگاههای همراه و کوچکتر باشد. اجرای مدلهای اینچنینی به صورت کامل و بدون وابستگی به سرورهای ابری، تا همین چندی پیش حتی به عنوان یک ایده هم مطرح نمیشد.
در حال حاضر، یک شکاف آشکار بین امکانات و کاربرد عملی هوش مصنوعی روی دستگاه وجود دارد. مدلهای کوچکتر همچنان انتخاب کاربردیتری هستند. اما آزمایشهایی از این دست، نویدبخش آن هستند که در آینده، گوشیهای هوشمند به راحتی قادر به مدیریت وظایفی بزرگتر و پیچیدهتر خواهند بود.













نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت