انویدیا از تراشه Groq 3 LPU برای پلتفرم روبین رونمایی کرد

انویدیا از Groq 3 پرده برداشت؛ شتاب‌دهنده‌ کمکی Rubin برای تسریع استنتاج هوش مصنوعی

توضیحات: حمیدرضا زارع; دسته: اخبار کارت گرافیک; 26 اسفند 1404 20:00

پردازنده‌های گرافیکی انویدیا در آموزش مدل‌های هوش مصنوعی تقریباً رقیبی ندارند. اما به نظر می‌رسد ظهور رقبای قدرتمند در زمینه استنتاج AI، انویدیا را وادار کرده است راهکارها جدیدی را در کنار GPUهای نسل جدید Rubin معرفی کند. با Groq 3 در ادامه این خبر آشنا شوید.

انویدیا سال گذشته استارتاپ Groq را خریدای کرد. شرکتی که به شکل تخصصی روی شتاب‌دهی اجرای مدل‌های هوش مصنوعی یا AI Inference متمرکز است. حال جنسن هوانگ در جریان نطق اصلی رویداد GTC، از اولین محصول این خرید در اکوسیستم انویدیا پرده برداشت. اکنون پلتفرم روبین میزبان یک تراشه جدید به نام Nvidia Groq 3 LPU است؛ یک شتاب‌دهنده استنتاجی که توانایی سیستم‌ها را برای تولید حجم انبوهی از توکن‌ها با کمترین تاخیر ممکن، به شدت تقویت می‌کند.

پلتفرم Rubin انویدیا پیش از این شامل ۶ قطعه کلیدی بود که انویدیا با استفاده از آن‌ها، سیستم‌های مقیاس‌رک (Rack-scale) را ساخته و آن‌ها را به کارخانه‌های عظیم هوش مصنوعی تبدیل می‌کرد. این قطعات شامل: پردازنده گرافیکی Rubin، پردازنده مرکزی Vera، سوییچ‌های شبکه NVLink 6، کارت شبکه ConnectX 9، واحد پردازش داده Bluefield 4 و سوییچ شبکه Spectrum-X بود. حالا تراشه Groq 3 LPU به عنوان یک قطعه جدید به این ساختار عظیم اضافه شده است.

تراشه Groq 3 LPU در کنار Rubin

حافظه SRAM در برابر HBM

برخلاف بیشتر شتاب‌دهنده‌های هوش مصنوعی که برای حافظه اصلی خود به تکنولوژی HBM متکی هستند، هر تراشه Groq 3 LPU به ۵۰۰ مگابایت حافظه SRAM مجهز شده است. همان حافظه‌ای که برای ساخت حافظه کش‌های در CPUها و GPUها استفاده می‌شود.

شاید این ظرفیت در مقایسه با حافظه عظیم ۲۸۸ گیگابایتی HBM4 در پردازنده‌های گرافیکی روبین ناچیز به نظر برسد، اما همین حافظه SRAM می‌تواند پهنای باند خیره‌کننده ۱۵۰ ترابایت بر ثانیه را ارائه دهد که بسیار بیشتر از پهنای باند ۲۲ ترابایت بر ثانیه‌ای حافظه HBM است. عملیات رمزگشایی (Decode) که یکی از مراحل کلیدی در اجرای مدل‌های AI محسوب می‌شود، به شدت به پهنای باند است، این افزایش چشمگیر پهنای باند می‌تواند مزایای شگفت‌انگیزی در کاربردهای استنتاجی به همراه داشته باشد.

مقایسه Rubin GPU و Groq 3 LPU

به گفته ایان باک (Ian Buck)، معاون بخش Hyperscale انویدیا، معرفی Groq 3 LPU ممکن است نقش شتاب‌دهنده استنتاجی Rubin CPX را در آینده کمرنگ‌تر کند، چرا که تمرکز فعلی شرکت روی ادغام رک‌های Groq 3 LPX با پلتفرم Rubin است. اگرچه او جزئیات بیشتری ارائه نداد، اما این تغییر استراتژی در دنیای امروز که با محدودیت‌های تامین حافظه مواجه است، کاملاً منطقی به نظر می‌رسد؛ زیرا هر دو تراشه برای ارائه بهبودهای مشابه در عملکرد استنتاج طراحی شده‌اند، با این تفاوت که تراشه Groq برخلاف ماژول‌های Rubin CPX، نیازی به حجم عظیمی از حافظه‌های گران‌قیمت GDDR7 ندارد.

هیولایی به نام رک Groq 3 LPX

در همین راستا، انویدیا رک‌های Groq 3 LPX را خواهد ساخت که هر کدام شامل ۲۵۶ تراشه Groq 3 LPU هستند. این رک، ۱۲۸ گیگابایت حافظه SRAM با پهنای باند فضایی ۴۰ پتابایت بر ثانیه را برای شتاب‌دهی به استنتاج ارائه می‌دهد و این تراشه‌ها را با یک رابط شبکه اختصاصی با سرعت ۶۴۰ ترابایت بر ثانیه در هر رک به یکدیگر متصل می‌کند.

رک Groq 3 LPX

ایان باک می‌گوید که این شرکت تراشه Groq LPX را به عنوان یک کمک‌پردازنده برای روبین در نظر گرفته است که می‌تواند عملکرد رمزگشایی را در «تک‌تک لایه‌های مدل هوش مصنوعی و روی تک‌تک توکن‌ها» تقویت کند. این ترکیب، پلتفرم روبین را برای نسل بعدی مدل‌های هوش مصنوعی آماده می‌کند: سیستم‌های چندعاملی (Multi-agent) که باید در حین استنتاج مدل‌های چند تریلیون پارامتری با پنجره‌های زمینه (Context Window) چند میلیون توکنی، عملکردی با پهنای باند بالا و تأخیر پایین داشته باشند.

در همین رابطه بخوانید:

- انویدیا از Rubin CPX رونمایی کرد؛ پردازنده‌ ۳۰ پتافلاپسی با ۱۲۸ گیگابایت حافظه GDDR7
- ابر تراشه WSE-3 با ۴ تریلیون ترانزیستور معرفی شد؛ 20 برابر قوی‌تر از انویدیا H100

خط و نشان انویدیا برای رقبا

اضافه شدن Groq 3 LPU به پلتفرم Rubin می‌تواند به این پلتفرم کمک کند تا رقبای خود را در حوزه «استنتاج با تاخیر پایین» کنار بزند. شرکتی مانند Cerebras که موتورهای پردازشیِ در ابعاد ویفرِ آن، مقادیر عظیمی حافظه SRAM و توان محاسباتی را برای استنتاج مدل‌های پیشرفته ترکیب می‌کنند، بارها به نقاط ضعف پردازنده‌های گرافیکی انویدیا در این زمینه طعنه زده بود.

حتی مشتریان بزرگی مانند OpenAI نیز برای اجرای برخی از مدل‌های پیشرفته خود، به سراغ پردازنده‌های Cerebras رفته‌اند تا از مزایای تاخیر پایین آن پلتفرم بهره‌مند شوند. انویدیا حالا با خرید Groq و معرفی این تراشه، به طور مستقیم این نقطه ضعف را پوشش داده است.