پردازندههای گرافیکی انویدیا در آموزش مدلهای هوش مصنوعی تقریباً رقیبی ندارند. اما به نظر میرسد ظهور رقبای قدرتمند در زمینه استنتاج AI، انویدیا را وادار کرده است راهکارها جدیدی را در کنار GPUهای نسل جدید Rubin معرفی کند. با Groq 3 در ادامه این خبر آشنا شوید.
انویدیا سال گذشته استارتاپ Groq را خریدای کرد. شرکتی که به شکل تخصصی روی شتابدهی اجرای مدلهای هوش مصنوعی یا AI Inference متمرکز است. حال جنسن هوانگ در جریان نطق اصلی رویداد GTC، از اولین محصول این خرید در اکوسیستم انویدیا پرده برداشت. اکنون پلتفرم روبین میزبان یک تراشه جدید به نام Nvidia Groq 3 LPU است؛ یک شتابدهنده استنتاجی که توانایی سیستمها را برای تولید حجم انبوهی از توکنها با کمترین تاخیر ممکن، به شدت تقویت میکند.
پلتفرم Rubin انویدیا پیش از این شامل ۶ قطعه کلیدی بود که انویدیا با استفاده از آنها، سیستمهای مقیاسرک (Rack-scale) را ساخته و آنها را به کارخانههای عظیم هوش مصنوعی تبدیل میکرد. این قطعات شامل: پردازنده گرافیکی Rubin، پردازنده مرکزی Vera، سوییچهای شبکه NVLink 6، کارت شبکه ConnectX 9، واحد پردازش داده Bluefield 4 و سوییچ شبکه Spectrum-X بود. حالا تراشه Groq 3 LPU به عنوان یک قطعه جدید به این ساختار عظیم اضافه شده است.

حافظه SRAM در برابر HBM
برخلاف بیشتر شتابدهندههای هوش مصنوعی که برای حافظه اصلی خود به تکنولوژی HBM متکی هستند، هر تراشه Groq 3 LPU به ۵۰۰ مگابایت حافظه SRAM مجهز شده است. همان حافظهای که برای ساخت حافظه کشهای در CPUها و GPUها استفاده میشود.
شاید این ظرفیت در مقایسه با حافظه عظیم ۲۸۸ گیگابایتی HBM4 در پردازندههای گرافیکی روبین ناچیز به نظر برسد، اما همین حافظه SRAM میتواند پهنای باند خیرهکننده ۱۵۰ ترابایت بر ثانیه را ارائه دهد که بسیار بیشتر از پهنای باند ۲۲ ترابایت بر ثانیهای حافظه HBM است. عملیات رمزگشایی (Decode) که یکی از مراحل کلیدی در اجرای مدلهای AI محسوب میشود، به شدت به پهنای باند است، این افزایش چشمگیر پهنای باند میتواند مزایای شگفتانگیزی در کاربردهای استنتاجی به همراه داشته باشد.

به گفته ایان باک (Ian Buck)، معاون بخش Hyperscale انویدیا، معرفی Groq 3 LPU ممکن است نقش شتابدهنده استنتاجی Rubin CPX را در آینده کمرنگتر کند، چرا که تمرکز فعلی شرکت روی ادغام رکهای Groq 3 LPX با پلتفرم Rubin است. اگرچه او جزئیات بیشتری ارائه نداد، اما این تغییر استراتژی در دنیای امروز که با محدودیتهای تامین حافظه مواجه است، کاملاً منطقی به نظر میرسد؛ زیرا هر دو تراشه برای ارائه بهبودهای مشابه در عملکرد استنتاج طراحی شدهاند، با این تفاوت که تراشه Groq برخلاف ماژولهای Rubin CPX، نیازی به حجم عظیمی از حافظههای گرانقیمت GDDR7 ندارد.
هیولایی به نام رک Groq 3 LPX
در همین راستا، انویدیا رکهای Groq 3 LPX را خواهد ساخت که هر کدام شامل ۲۵۶ تراشه Groq 3 LPU هستند. این رک، ۱۲۸ گیگابایت حافظه SRAM با پهنای باند فضایی ۴۰ پتابایت بر ثانیه را برای شتابدهی به استنتاج ارائه میدهد و این تراشهها را با یک رابط شبکه اختصاصی با سرعت ۶۴۰ ترابایت بر ثانیه در هر رک به یکدیگر متصل میکند.

ایان باک میگوید که این شرکت تراشه Groq LPX را به عنوان یک کمکپردازنده برای روبین در نظر گرفته است که میتواند عملکرد رمزگشایی را در «تکتک لایههای مدل هوش مصنوعی و روی تکتک توکنها» تقویت کند. این ترکیب، پلتفرم روبین را برای نسل بعدی مدلهای هوش مصنوعی آماده میکند: سیستمهای چندعاملی (Multi-agent) که باید در حین استنتاج مدلهای چند تریلیون پارامتری با پنجرههای زمینه (Context Window) چند میلیون توکنی، عملکردی با پهنای باند بالا و تأخیر پایین داشته باشند.
در همین رابطه بخوانید:
- انویدیا از Rubin CPX رونمایی کرد؛ پردازنده ۳۰ پتافلاپسی با ۱۲۸ گیگابایت حافظه GDDR7
- ابر تراشه WSE-3 با ۴ تریلیون ترانزیستور معرفی شد؛ 20 برابر قویتر از انویدیا H100
خط و نشان انویدیا برای رقبا
اضافه شدن Groq 3 LPU به پلتفرم Rubin میتواند به این پلتفرم کمک کند تا رقبای خود را در حوزه «استنتاج با تاخیر پایین» کنار بزند. شرکتی مانند Cerebras که موتورهای پردازشیِ در ابعاد ویفرِ آن، مقادیر عظیمی حافظه SRAM و توان محاسباتی را برای استنتاج مدلهای پیشرفته ترکیب میکنند، بارها به نقاط ضعف پردازندههای گرافیکی انویدیا در این زمینه طعنه زده بود.
حتی مشتریان بزرگی مانند OpenAI نیز برای اجرای برخی از مدلهای پیشرفته خود، به سراغ پردازندههای Cerebras رفتهاند تا از مزایای تاخیر پایین آن پلتفرم بهرهمند شوند. انویدیا حالا با خرید Groq و معرفی این تراشه، به طور مستقیم این نقطه ضعف را پوشش داده است.













نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت