هر آنچه که باید درباره حافظه و خطوط ارتباطی PCIe پردازنده های AMD Ryzen Threadripper بدانید

توضیحات: خبات کریمی; دسته: مقالات پردازنده; 21 مرداد 1396 15:26

همانطور که می دانید بر خلاف Skylake-X اینتل، پردازنده های AMD Ryzen Threadripper از یک تراشه یک تکه ساخته نشده اند و همین آنها را متمایز می کند که به تفاوت های بنیادین با پردازنده های رقیب منجر شده است. در نوشتار پیش رو به ارائه جزئیات تازه از طراحی پردازنده های Ryzen Threadripper می پردازیم.

در اصل پردازنده های AMD Ryzen Threadripper از طراحی ماژول متشکل از چندین تراشه (موسوم به MCM) بهره می برند که در آن دو قطعه سیلیکونی 8 هسته ای Summit Ridge یافت می شود، هر قطعه سلیکونی دارای کنترلر حافظه دوکاناله و رابط PCI-Express مختص به خود است. این درست در تضاد با طراحی پردازنده های Skylake-X اینتل است که در رده بالاترین مدل از یک قطعه سیلیکونی 18 هسته ای یک تکه با کنترلر حافظه چهار کاناله و 44 خط ارتباطی PCIe بهره می برد. به وضوح استفاده از بیش از یک قطعه سیلیکونی (تراشه) به افزایش تاخیر در ارتباط داخلی می انجامد اما AMD برای به حداقل رساندن تاخیر دست به چندین نوآوری زده که بخشی از آن به بکارگیری فناوری دسترسی به حافظه غیر یکنواخت (موسوم به NUMA) مربوط می شود.

با توجه به آنچه که درباره طراحی متفاوت Ryzen Threadripper گفته شد، هنگامی که 32 گیگابایت حافظه DDR4 متشکل از چهار ماژول 8 گیگابایتی تحت پیکربندی چهارکاناله بر روی کی مادربرد X399 نصب می شود، در سمت سخت افزار هر 16 گیگابایت توسط یک تراشه Summit Ridge تحت پیکربندی دو کاناله دیده می شود. اما در سمت نرم افزار به عنوان 32 گیگابایت حافظه یکپارچه دیده می شود، با این حال پیکربندی چهارکاناله و پهنای باند چهار برابر آن نسبت به پیکربندی یک کاناله به همان سادگی پردازنده های سری Core X اینتل نیست و با پیچیدگی های مربوط به تاخیر در دسترسی مواجه می شود. در این طراحی یک thread اجرا شده توسط قطعه سلیکونی A نصف حافظه رم تخصیص یافته به خود را از کنترلر حافظه قطعه سیلیکونی B دریافت می کند که حاصل آن افزایش تاخیر است. AMD برای کاستن از شدت این مشکل در پردازنده های Ryzen Threadripper رویکرد دیگری اتخاذ کرده و همانند دو سوکت پردازنده عمل می کند که در آن هر سوکت (هر پردازنده) حافظه محلی مختص به خود را دارد.

در وجود آنچه که گفته شد، پردازنده های Threadripper دارای دو حالت تخصیص حافظه متشکل از Distributed Mode (حالت توزیع شده) و Local Mode (حالت محلی) هستند که در حالت نخست حافظه تخصیص یافته به thread به طور مشترک از طریق هر دو کنترلر حافظه تامین می شود اما در حالت دوم thread حافظه تخصیص یافته به خود را تنها از کنترلر حافظه متعلق به قطعه سلیکونی که توسط آن اجرا شده دریافت می کند.

در حالت نخست تمامی چهار کانال حافظه موجود برای تامین پهنای باند حافظه مورد نیاز برنامه اجرا شده به خدمت گرفته می شود که حاصل آن تامین بالاترین پهنای باند حافظه ممکن است. در حقیقت در حالت Distributed Mode پهنای باند حافظه بالاتر به تاخیر کم تر ارجحیت دارد اما در طرف مقابل در حالت Local Mode تاخیر کمتر بر پهنای باند حافظه ارجحیت دارد. در نمودار زیر مقایسه پهنای باند و تاخیر این دو حالت آمده است:

به وضوح برای اینکه برنامه های مورد استفاده کاربر از وجود و این دو حالت مطلع شوند به بهینه سازی نیاز دارند که همین مسئله می تواند مشکلاتی چون عملکرد ضعیف تر را پدید آورد.

AMD در تبلیغ پردازنده های Ryzen Threadripper بر روی برخوردای از 64 خط ارتباطی PCI-Express نسل 3.0 تاکید کرده و خطوط همه منظوره منشعب از چیپ ست اصلی را جمع نزده است، چراکه آنها نسل 2.0 هستند. 64 خط ارتباطی پردازنده های مزبور حاصل جمع 32 خط ارتباطی از دو قطعه سیلیکونی Summit Ridge است.

از این 64 خط، 4 خط (2 خط از هر تراشه) صرف ارتباط به چیپ ست X399 می شود، بنابراین 60 خط ارتباطی در قالب 30 خط از هر قطعه سیلیکونی باقی می ماند. 32 خط از مجموع 60 خط باقی مانده برای دو کارت گرافیک با پهنای گذرگاه x16 کامل در نظر گرفته شده یا می توان 4 کارت گرافیک با دسترسی به پهنای گذرگاه x8 داشت. با این حساب 28 خط دیگر باقی می ماند که می توان شکاف توسعه سوم با پهنای گذرگاه x16 کامل یا دو شکاف با پهنای گذرگاه x8 یا تا سه شکاف M.2 با پهنای گذرگاه x4 داشت. خطوط باقی مانده نیز می توانند صرف دیگر کنترلرهای آنبورد شوند.

همه آنچه که گفته شد توسط یک مسیر ارتباطی پرسرعت ویژه موسوم به AMD InfinityFabric با یکدیگر در ارتباط هستند که نه تنها دو واحد CCX چهار هسته ای هر قطعه سلیکونی را به یکدیگر پیوند می دهد، بلکه دو قطعه سلیکونی را هم به یکدیگر وصل می کند. این مسیر ارتباطی به هسته های پردازشی این امکان را می دهد تا حافظه کنترل شده توسط کنترلر حافظه قطعه سیلیکونی همسایه را با تاخیر زیر 133 نانو ثانیه آدرس دهی کنند. همچنین تاخیر برای دسترسی به حافظه کنترل شده توسط همان تراشه زیر 78 نانو ثانیه اندازه گیری شده است. ظاهراً نه تنها تاخیر InfinityFabric نسبتاً مطلوب است، بلکه بهره وری از انرژی آن هم بالا است.

InfinityFabric یک مسیر ارتباطی دو طرفه با پهنای باند 102.22 گیگابایت بر ثانیه میان دو قطعه سیلیکونی است.