دردسرهای خرابی شتاب دهنده گران‌قیمت H100 80GB انویدیا برای متا

توضیحات: خبات کریمی; دسته: اخبار کارت گرافیک; 07 مرداد 1403 11:00

گزارش جدید متا از اجرای مدل هوش مصنوعی Llama 3 405B بر روی کلاستری با ۱۶,۳۸۴ پردازنده گرافیکی Nvidia H100 80GB حاوی اطلاعات جالبی درباره نرخ خرابی و مشکلات این محصول گران‌قیمت انویدیا است.

متا اخیراً نتایج مطالعه‌ای را منتشر کرده که جزئیاتی از اجرای مدل هوش مصنوعی Llama 3 405B بر روی کلاستری متشکل از ۱۶,۳۸۴ پردازنده گرافیکی Nvidia H100 80GB ارائه می‌کند. فرآیند آموزش مدل هوش مصنوعی متا ۵۴ روز طول کشیده و در این مدت، کلاستر مورد استفاده با ۴۱۹ مورد خرابی غیرمنتظره مواجه شد که به طور متوسط هر سه ساعت یک بار خرابی رخ داده بود. در نیمی از موارد خرابی، پردازنده‌های گرافیکی یا حافظه HBM3 بکار رفته در آن‌ها مشکل‌ساز شده بودند.

نرخ خرابی H100 80GB انویدیا در آموزش Llama 3 405B

یک جمله مشهور در دنیای ابرکامپیوترها وجود دارد که می‌گوید تنها قطعیت در سیستم‌های بزرگ، خرابی است. ابرکامپیوترها دستگاه‌های بسیار پیچیده‌ای هستند که از ده‌ها هزار پردازنده، صدها هزار تراشه دیگر و صدها کیلومتر کابل استفاده می‌کنند. در چنین ابرکامپیوتر پیشرفته و پیچیده‌ای، وقوع خرابی هر چند ساعت یک بار امری اجتناب‌ناپذیر است، از همین رو این هنر توسعه‌دهندگان و طراحان آن است که سیستم را با وجود خرابی‌هایی که رخ می‌دهد، فعال نگه دارند.

طبق آنچه که گفته شد، به وضوح استفاده از ۱۶,۳۸۴ پردازنده گرافیکی برای تعلیم مدل هوش مصنوعی، آن را مستعد خرابی می‌کند. اگر این خرابی‌ها به درستی مدیریت نشوند، خرابی تنها یک پردازنده گرافیکی می‌تواند کل فرایند آموزش را مختل کند و همه چیز به نقطه اول بازگردد. با این حال تیم Llama 3 توانسته از بیش از ۹۰ درصد زمان صرف شده برای آموزش این مدل هوش مصنوعی استفاده مفید کند.

در یک دوره آزمایشی ۵۴ روزه، ۴۶۶ وقفه در کار رخ داد که ۴۷ مورد برنامه‌ریزی شده و ۴۱۹ مورد غیرمنتظره بودند. وقفه‌های برنامه‌ریزی شده به دلیل نگهداری خودکار بودند، در حالی که وقفه‌های غیرمنتظره عمدتاً از مشکلات سخت‌افزاری ناشی می‌شدند. مشکلات مرتبط با پردازنده‌های گرافیکی بالاترین سهم را از وقفه‌های رخ داده داشتند و ۵۸.۷٪ از وقفه‌های غیرمنتظره را تشکیل می‌دادند. از ۴۱۹ واقعه رخ داده، تنها سه مورد نیاز به مداخله دستی جدی داشتند و بقیه به صورت اتوماسیون مدیریت شده‌اند.

در همین رابطه بخوانید:

- Llama 3.1 معرفی شد؛ بزرگترین مدل هوش مصنوعی دنیا بهتر از GPT-4o!

از ۴۱۹ وقفه غیرمنتظره رخ داده، ۱۴۸ مورد (۳۰.۱٪) ناشی از خرابی‌های مختلف پردازنده‌های گرافیکی (از جمله خرابی‌های NVLink) بودند، در حالی که ۷۲ مورد (۱۷.۲٪) ناشی از خرابی حافظه HBM3 بودند. البته این خرابی‌ها با توجه به مصرف حدود ۷۰۰ واتی پردازنده‌های گرافیکی Nvidia H100 و استرس بالای ناشی از گرمای تولید شده، چندان هم تعجب‌آور نیست. جالب اینجاست که تنها دو پردازنده مرکزی (CPU) در طول این ۵۴ روز خراب شدند!