NVIDIA DGX Cluster Architekura

Serverové architektury pro HPC 2023

14.1.2023

Představujeme porovnání procesorů a serverových architektur, které je možné na začátku roku 2023 nasadit především pro HPC aplikace a umělou inteligenci. V hlavní roli – AMD EPYC, Intel Xeon, IBM POWER, ARM Ampere a NVIDIA Grace.

Porovnání architektur

Stejně jako v našem předchozím porovnání serverových architektur v roce 2020 jsme pro srovnávání vybrali 5 aktuálně nejpopulárnějších procesorových architektur a od každé z nich model s nejvyššími parametry. U každého modelu jsou uvedeny klíčové parametry a souhrn jeho nejpřínosnějších funkcí využívaných v oblastech HPC (High Performance Computing) a AI (Artificial Inteligence).

Na závěr jsou připravena porovnání v oblasti výpočetního výkonu, spotřeby, efektivity a ekonomické výhodnosti.

Ne všechny informace jsou dostupné/ověřené. Tyto informace v textu označujeme hvězdičkou * s uvedením zdrojů na konci článku.

Superpočítač Karolina - IT4I

Superpočítač Karolina, nejvýkonnější v ČR | IT4I VŠB Ostrava

Detailní popis jednotlivých architektur

Technické parametry

PlatformaIntel XeonAMD EPYCIBM POWERARMNVIDIA
Název procesoruIntel Xeon 8490HAMD EPYC 9654IBM POWER10 EPGD/EPGKAmpere Altra Max M128-30NVIDIA Grace CPU
GeneraceIntel Xeon 4thAMD Epyc 4thIBM Power 10thArm Neoverse V1
v8.1/v8.2+
Arm Neoverse V2 v9.0-A
max. # CPU / server8 2222
max. # jader / CPU60962412872
# threadů na jádro22812
# threadů / CPU120192192128144
základní frekvence1,9 GHz2,4 GHz2,7 GHz2,6 GHzTB/A
Turbo frekvence3,5 GHz3,7 GHz3,5 GHz3 GHzTB/A
# paměť. kanálů812168TB/A
velikost L3 cache112,5 MB384 MB120 MB117 MB
max. rychlost pamětíDDR5 – 4800DDR5 – 4800DDR5 – 4800DDR4 – 3200LPDDR5 – 4800
max. RAM / CPU6 TB6 TB64 TB
4 TB512 GB
verze PCIe / CPUPCIe gen 5PCIe gen 5PCIe gen 5PCIe gen 4PCIe gen 5
# PCI linek / CPU801283212864
TDP procesoru350 W360 W190 W250 WTB/A
výrobní procesIntel 77 nm6nm / 5nm7 nm Neoverse
7nm Neoverse
Počet tranzistorůTB/A78,8 miliard18 miliard30 miliard ?16 miliard ?
továrna na výrobuIntelTSCMSamsungTSMCTSMC
listová cena17 000 USD11 805 USD35 000 USD5 800 USDTB/A
datum oznámeníQ1 2023Q4 2022Q2 2020Q2 2020Q4 2023*
specifikacevíce informacívíce informacívíce informacívíce informací

Údaje označené * jsou neoficiální/očekávané údaje podle zdrojů z internetu.

AMD EPYC Genoa

AMD Genoa EPYC 9654 CPU

Nová generace procesorů AMD EPYC přináší hodně nového. Pro naše porovnání jsme vybrali konkrétně model EPYC 9654, který nabízí 96 x86 jader, které ho ještě s dalšímí funkcemi paují na nejvýkonnější x86 serverový procesor vůbec. S variabilní spotřebou si může říct až o 400 wattů a dosahuje taktů až 3.7 GHz na jádro, resp. 3.55 GHz na všechny jádra.

Z pohledu paměti má 384 MB L3 Cache, podporuje paměti DDR5 o frekvenci 4800 MHz s maximální kapacitou 6 TB na procesor.

ZEN 4 jádra

Nová architektura serverových procesorů AMD EPYC nesoucí název „Zen 4“ přináší mnoho nových či vylepšených funkcí; nově přináší do procesorů rozšířenou instrukční sadu AVX-512, kterou dobře známe z Intelových procesorů. Ta umožňuje počítat s až 256 bitovými vektory a Double Precision floating point operacemi. AMD zmiňuje přínos pro sektory Natural Language Processingu (zpracování mluveného jazyka) nebo klasifikaci objektů a obrázků, kde má v průměru přinést až čtyřnásobné zrychlení.

Multi Socket řešení

Procesory Genoa umožňují i dvoučipové nasazení, kdy procesory jsou mezi sebou propojovány AMD Infinity Fabric technologií, čímž vytváří propoje s vysokým datovým tokem a rozšiřují i počet PCI-e gen. 5 linek na 160 (zbylých 96 je využito jako Fabric propoj).

Superpočítače postavené na AMD EPYCSuperpočítač Frontier

Frontier – aktuálně první Exa-scale superpočítač na světě. Současně drží první místo v žebříčku Top500.

Jeho papírový výkon má dosahovat až 1.6 ExaFLOPs, v praxi se potvrdilo 1.1 ExaFLOPs.
Jeho specifikace jsou:
9,472 purpose-built procesorů AMD EPYC 7A53, 64 jader, tedy celkově má systém přes 600,000 jader,  37,888 AMD Instinct MI250X karet a 47 PB RAM (5 TB na každý node, který se skládá z jednoho procesoru, paměti a 4 akcelerátorů). Superpočítač byl dostavěn v květnu 2022, celkově stál okolo 600 mil. USD.
Další chystaný superpočítač je El Capitan, který má běžet již na nové architektuře Zen 4, tedy procesorech AMD EPYC Genoa.

Intel Xeon Sapphire Rapids

Intel Xeon Max Sapphire Rapids CPU

Procesory Intel Xeon Max jsou prvními x86 čipy na trhu, které přinášejí integrovanou High Bandwidth Paměť (HBM). Intel v tomto směru vidí možné zrychlení výpočtů a dalších běžných operací v HPC sféře. Bohužel jako jediný je stále vyráběn zastaralým Intel 7 (10nm)* procesem, takže nemůže dosáhnout takového potenciálu, jako čipy s nižším výrobním procesem, jako např. 7nm, který je v dnešní době víceméně standardem.

Intel Xeon Max nabízí až 60* výkonných jader složených ze čtyř čipů, které jsou propojeny technologií Intelmulti-die interconnect bridge (EMIB). Dále procesor obsahuje již zmíněných 64 GB HBM paměti, podporu pro PCI Express 5.0 a CXL1.1 I/O. To vše s maximální spotřebou 350 wattů*. Xeon Max procesory tak mají kapacitu přes 1GB HBM paměti na jedno jádro, což je velikost, do které lze uložit většinu běžných HPC instrukcí a tímto způsobem výpočtu a běhu aplikací lze dosáhnout až 4.8x lepšího výkonu oproti konkurenčním řešením pro HPC.

Procesory Intel Xeon

CPU Market Share pie chart

Procesory Intel Xeon jsou dlouhodobě leader serverového sektoru na trhu – posledních 5 let si držely podíl přes 75% a první místa v seznamech nasazení. Pro mnoho společností jsou jasnou volbou díky široké podpoře funkcí, bezpečnosti, slušného poměru cena/výkon a dobré spolehlivosti.

HBM2E Paměť

Jak je výše zmíněno, Intel Xeon Max procesory mají integrovanou HBM paměť přímo do procesoru, čímž mohou vytvořit mnoho výhod pro pracovní prostředí serverových či HPC aplikací.
HBM paměť je totiž možné nakonfigurovat do několika „seskupení“, kdy z každého z nich může těžit jiná aplikace.Paměť lze jednak využívat jako pseudo-L4 cache, čímž se mohou urychlit aplikace závislé na rychlé paměti. Dále ji můžeme jednoduše spojit s celkovou systémovou pamětí, přičemž při konstrukci aplikací stále můžeme využívat předností HBM a konkrétně na ně cílit. Poslední možný scénář může vypadat tak, že celkový systém nemá žádnou systémovou paměť RAM, ale využívá pouze tu integrovanou v procesoru, čímž má stále přístup k poměrně velké kapacitě s obrovskou rychlostí.

Vícesocketové zapojení

Stejně jako jeho předchůdci, procesory Intel Xeon Max umožňjí vícesocketové zapojení, a to až po osmi čipech na jeden systém. Tím můžeme dosáhnout obrovského výkonu pro HPC aplikace, enormní kapacity paměti ram (až 48TB!) a ve spojení například s akcelerátory Intel Xe DC GPU lze vytvořit jednak cenově ne příliš náročný, ale také spolehlivý, výkonný a úsporný HPC systém. A předpokládáme uvedení HPE Superdome Flex, který bude škálovat ještě lépe.

Nasazení v superpočítačích

Očekávaný superpočítač Aurora

Největším superpočítačem, který má být postavený na platformě Intel Xeon Sapphire Rapids je očekávaný superpočítač Aurora. Slíbeno má například přes 7 PB paměti RAM a 150 PB úložiště. Vše bude propojeno technologiemi od společnosti CRAY, kterou Intel koupil a provozoval pod jménem Intel Omni-Path, ale později ukončil její vývoj (momentálně je podpora poskytována společností Cornelis networks). Dodání bylo oznámeno již v roce 2015, ovšem k dnešnímu datu je superpočítač stále ve výstavbě.

Superpočítač ve výsledku má dosahovat výkonu 150 PetaFLOPs se spotřebou cca 13 MW.

IBM Power10IBM Power10 procesor pro HPC

IBM Power 10 procesory jsou skvělým nástupcem Power procesorů minulé generace, jelikož pod stejnou spotřebou přináší až dvojnásobný výpočetní výkon. Díky své vlastní architektuře, která je postavena na RISCu dokážou pro speciálně navržené aplikace dodat ohromný výkon. Pro systémy byl tradičně využíván systém IBM i, ovšem nově byla podpora rozšířena i o některé enterprise distribuce Linuxu.

IBM Memory Inception

Tato technologie od IBM umožňuje procesoru Power10 komunikaci s paměťovým clusterem o velikost až 2PB; to je více než unikátní, jelikož většina systémů končí u 64TB, což je 32x méně. Paměťové propoje běží skrze nové rozhraní OMI (Open Memory Interface), které poskytuje vyšší datový tok a flexibulitu připojení. Momentálně se to může zdát jako obrovský přestřel, ale pro některé sítě umělé inteligence nebo strojového učení může být tato kapacita eventuelně více než využitelná. Více zde

Další technologie, Chipkill spolu s ECC zajišťuje integritu paměti a chrání proti jejímu poškození.

Kompletní redundance v 4U jednotce

IBM Power10 systémy mají zajištěnou redundanci všech krityckých součástek, jako například chlazení či zdroje elektrické energie. Na chladícím systému jde například provádět údržbu i za běhu systému. U napájení lze provozovat systém v plné míře i při výpadku dvou zdrojů. Dále mají paměti RAM a cahce aktivovanou službu AMM (Active Memory Mirroring), která konstantně zrcadlí potřebnou paměť pro to, aby při případném poškození dat za běhu systému, které nezvládne opravit ECC, nebyl chod systému narušen.

Trénování AI

Systémy postavené na procesorech Power10 jsou skvělou volbou pro trénování umělé inteligence (AI). Procesory mají dedikovaná jádra pro výpočty s maticemi (MMA), které dokážou trénovací doby násobně zkrátit. Následně vytrénovaný model je dostupný pod ONNX (Open Neural Network Exchange) a podporuje nejpoužívanější frameworky pro umělou inteligenci jako je PyTorch nebo TensorFlow, které lze využívat bez přepisování kódu při migraci z jiného systému.

ARM Ampere Altra Max M128-30 HPC CPUARM Ampere Altra (Max)

Nová serverová řada procesorů založených na architektuře ARM nese řadový název Altra. Pro naše porovnání jsme si vybrali model Altra Max M128-30, který má v názvu zaklíčované jedny ze svých klíčových vlastností – 128 jader s architekturou 7nm Neoverse N1 o frekvencí až 3.0 GHz.

Vysoká efektivita při vysokém výkonu

Procesory Altra Max si zachovávají poměrně nízkou spotřebu oproti ostatním porovnávaným procesorům, a to přibližně 180 wattů. Pokud si tento údaj spojíme s tím, že ARMový procesor má také nejvíce jader při relativně vysoké frekvenci, a to vše za cenu necelých 6000 USD, rozhodně dostaneme vítěze v hrubém poměru cena / výkon.

Ampere Altra server with Altra M128-30 CPU

Vysokokapacitní Cache pro každé jádro

Každé jádro procesoru M128-80 má svoji vlasní dedikovanou 64KB L1-D cache a 1MB L2 cache. Tím se zamezí jakýmkoliv konfliktům o instrukce či primitivní data mezi jednotlivými jádry a paralelizace aplikací se nejen mnohonásobně urychlí, ale také usnadní její nasazení či vývoj.

Cloud-native procesor

Ampere Altra M128-30 byl stavěný s tím, že bude převážně nasazen jako cloud-coumputing procesor, případně i jako on-the-edge cloud computing.

Cloud Computing procesory jsou běžné serverové procesory přizpůsobeny řadou funkcí k tomu, aby byly využívány k počítání v cloudu a pracování s cloudovými aplikacemi. Mnoho firem vidí budoucnost aplikací a služeb v cloudech, tedy že veškerý obsah a data budou přístupné odkudkoliv z internetu (samozřejmě s řízeným přístupem) a tím se zjednoduší např. distribuce, usnadní se přístup k trénovaným AI modelům a podobně. Proto má Altra Max vysoký počet vysokorychlostních PCI linek pro síťové propoje a první základní desky mají např. OCI (Open Compute Interface) pro fabric propoje či jiné vysokorychlostní propojení.

NVIDIA Grace CPUNVIDIA Grace HPC superchip

Jednou z HPC novinek pro rok 2023 mají být speciální čipové sady NVIDIA Grace, kdy se jedná o kompletní výpočetní jednotky na jediné systémové desce. Ovšem očekáváme, že procesory NVIDIA Grace půjde nasadit samostatně a budeme tak mít o jednoho soupeřícího v porovnání navíc.

ARM Neoverse V2 jádra

Jak jsme si již zmínily u Altry Max, nová ARM architektura Neoverse se 7nm výrobním procesem je schopná vytvořit čipy s vysokým počtem jader na co nejmenší plochu, jako je tomu u 128 jádrové Altry M128-30.

Čipy Neoverse V jsou novou arm skupinou, která cílí převážně na co největší výkon na čip. Proto jejich hlavní využití primárně v HPC řešeních a podobých výpočetních clusterech, které se využívají opět např. pro trénování sítí pro umělou inteligenci.

Speciální instrukční sady pro HPC a strojové učení

Neoverse V2 jádra mají novou speciální instrukční sadu int8 pro aritmetické operace s maticemi. Tím by se měl značně zvýšit výkon při trénování neuronových sítí, v některých oblastech dokonce až 4x. Dále například sada BFloat16 umožňuje efektivnější pracování s floating point čísly a operacemi, sada SVE zase usnadňuje práci s vektory a urychluje jejich výpočty téměř 2x.

Srovnání výkonu procesorů

Ačkoliv je každá z architektur v něčem jiná a je poměrně těžké sehnat pro všechny několik jednotných testů, zde je sourn benchmarků všech čtyř procesorů a jejich výkonu v daném testu.

(některé informace chybí buďto z důvodu nekompatibility testu nebo neexistujících výsledků, případně budou doplněny, až budou informace dostupné)

PlatformaIntel XeonAMD EPYCIBM POWERARMNVIDIA
Model procesoruXeon Max 8490HEPYC 9654Power10Ampere Altra M128-30Grace
# jader, frekvence609645128, 3.0 GHz72, TB/A
3.3 GHz3.35 GHz4.0 GHz
DP FLOPs / takt5,614 TFLOPs10,214 TFLOPs1,9 TFLOPs953.6 GFLOPsTB/A
Linpack RPeak / CPUTB/ATB/ATB/ATB/ATB/A
Linpack Rmax dual-socket serverTB/ATB/ATB/ATB/ATB/A
PassMarkTB/ATB/ATB/ATB/ATB/A
Geekbench (single core)846TB/A
Geekbench (multi core)68 024TB/A
Memory bandwith (on-paper)TB/A680 GB/s409 GB/s160 GB/s3,2 TB/s
STREAMTB/ATB/A
HPCGTB/A45,22
TB/A
SPECrate2017_int_base802 (est.)1790359 (est.)TB/A
SPECrate2017_fp_base679 (est.)1480TB/A
ANSYS FluentTB/ATB/A

Energetická efektivita procesorů

U procesorů je užitečné také uvádět poměr např. cena/výkon, nebo spotřeba/výkon, jelikož toto mohlou být klíčové vlastnosti pro zákazníka, podle kterých si může vybrat architekturu pro svůj projekt. U HPC řešení to je více než klíčová vlastnost, jelikož v poslední době ceny energií letí prudce nahoru a je mnohem zodpovědnější provozovat řešení, které na svůj výkon je úspornější než stejně výkonná konkurence. Samozřejmě preference mohou být ovlivněny také jednotlivými funkcemi či cílené použití aplikace a technického řešení.

ProcesorIntel Xeon 8490HAMD EPYC 9654IBM Power10Ampere Altra Max M128-30NVIDIA Grace CPU
Výkon5614 GFLOP5376 GFLOP1900 GFLOP
Spotřeba
350 W400 W190 W170 W
GFLOP / W16,04 GFLOP / W13,44 GFLOP / W10 GFLOP / W5,6 GFLOP / W

Poměr cena / výkon

ProcesorIntel Xeon 8490HAMD EPYC 9654IBM Power10Ampere Altra Max M128-30NVIDIA Grace CPU
Výkon5614 GFLOP5376 GFLOP1900 GFLOP980 GFLOP
Cena
12 980 USD11 805 USD35 000 USD5 800 USD
GFLOP / USD0,4 GFLOP / USD0,86 GFLOP / USD0,05 GFLOP / USD0,16 GFLOP / USD

Poznámky a zdroje dat

Benchmarky procesorů a specifikace:

Intel Xeon Max

https://insidehpc.com/2022/11/intel-officially-announces-ponte-vecchio-and-sapphire-rapids-hints-at-falcon-shores-xpu-in-2024/

https://www.techpowerup.com/300576/intel-4th-gen-xeon-scalable-sapphire-rapids-server-processors-launch-in-january

https://hothardware.com/reviews/hands-on-with-sapphire-rapids-intel-4th-gen-xeon

AMD EPYC 9654

https://browser.geekbench.com/v5/cpu/18692940

https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/14

https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/5

https://www.hpcwire.com/2022/11/10/amds-4th-gen-epyc-genoa-96-5nm-cores-across-12-compute-chiplets/

IBM Power10

https://mcomputers.cz/en/ibm-power10/

https://www.servethehome.com/ibm-power10-searching-for-the-holy-grail-of-compute/ 

https://www.nextplatform.com/2022/07/12/can-ibm-get-back-into-hpc-with-power10/

https://www.linleygroup.com/newsletters/newsletter_detail.php?num=6200&year=2020&tag=3

ARM Ampere

https://www.servethehome.com/arm-neoverse-v2-cores-launched-for-nvidia-grace-and-cxl-2-0-pcie-gen5-cpus/

https://www.oracle.com/cz/cloud/compute/arm/

https://d1o0i0v5q5lp8h.cloudfront.net/ampere/live/assets/documents/Altra_Max_Rev_A1_DS_v1.05_20220728.pdf

https://d1o0i0v5q5lp8h.cloudfront.net/ampere/live/assets/documents/Altra_Max_Rev_A1_DS_v1.00_20220331.pdf

NVIDIA Grace

https://resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper

https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/