NVIDIA DGX Cluster Architekura

Serverové architektury pro HPC 2023

14.1.2023 (aktualizace 8.6.2023)

Představujeme porovnání procesorů a serverových architektur, které je možné na začátku roku 2023 nasadit především pro HPC aplikace a umělou inteligenci. V hlavní roli – AMD EPYC, Intel Xeon, IBM POWER, ARM Ampere a NVIDIA Grace.

Porovnání architektur

Stejně jako v našem předchozím porovnání serverových architektur v roce 2020 jsme pro srovnávání vybrali 5 aktuálně nejpopulárnějších procesorových architektur a od každé z nich model s nejvyššími parametry. U každého modelu jsou uvedeny klíčové parametry a souhrn jeho nejpřínosnějších funkcí využívaných v oblastech HPC (High Performance Computing) a AI (Artificial Inteligence).

Na závěr jsou připravena porovnání v oblasti výpočetního výkonu, spotřeby, efektivity a ekonomické výhodnosti.

Ne všechny informace jsou dostupné/ověřené. Tyto informace v textu označujeme hvězdičkou * s uvedením zdrojů na konci článku.

Superpočítač Karolina - IT4I

Superpočítač Karolina, nejvýkonnější v ČR | IT4I VŠB TUO, Ostrava

Detailní popis jednotlivých architektur

Technické parametry

PlatformaIntel XeonAMD EPYCIBM POWERARMNVIDIA
Název procesoruIntel Xeon 8490HAMD EPYC 9754IBM POWER10 EPGD/EPGKAmpere Altra Max M128-30NVIDIA Grace CPU
GeneraceIntel Xeon 4th genAMD Epyc 4th genIBM Power 10th genArm Neoverse V1
v8.1/v8.2+
Arm Neoverse V2 v9.0-A
max. # CPU / server8 2222
max. # jader / CPU601282412872
# threadů na jádro22812
# threadů / CPU120256192128144
základní frekvence1,9 GHz2,25 GHz2,7 GHz2,6 GHzTB/A
Turbo frekvence3,5 GHz3,1 GHz3,5 GHz3 GHzTB/A
# paměť. kanálů81216832

velikost L3 cache112,5 MB256 MB120 MB16 MB117 MB
max. rychlost pamětíDDR5 – 4800DDR5 – 4800DDR5 – 4800DDR4 – 3200LPDDR5 – 4800
max. RAM / CPU6 TB6 TB6 TB
4 TB512 GB
verze PCIe / CPUPCIe gen 5PCIe gen 5PCIe gen 5PCIe gen 4PCIe gen 5
# PCI linek / CPU801283212868
TDP procesoru350 W360 W190 W250 W500 W **
výrobní procesIntel 75 nm7 nm7 nm Neoverse
5 nm TSMC 4N
Počet tranzistorů100 miliard82 miliard18 miliard30 miliard *16 miliard *
továrna na výrobuIntelTSCMSamsungTSMCTSMC
listová cena17 000 USD11 900 USD35 000 USD5 800 USDTB/A
datum oznámeníQ2 2021Q3 2022Q2 2020Q2 2020Q4 2023*
specifikacevíce informacívíce informacívíce informacívíce informacívíce informací

Údaje označené * jsou neoficiální/očekávané údaje podle zdrojů z internetu. ** TDP je dimenzováno na celý SoC modul.

AMD EPYC 4. generace

Nová generace procesorů AMD EPYC přináší hodně nového. Pro naše porovnání jsme vybrali konkrétně model EPYC 9754, který nabízí 128 x86 jader, které ho ještě s dalšímí funkcemi pasují na nejvýkonnější x86 serverový procesor vůbec. S variabilní spotřebou si může říct až o 400 wattů a dosahuje taktů až 3.1 GHz na všech jádrech.

Z pohledu paměti má 256 MB L3 Cache, což je sice méně, než má top model řady Genoa, který má 384 MB L3, ovšem to je kompromis k architektuře jednotlivých čipletů, kterých má EPYC 9754 po osmi, přičemž každý má 16 jader, oproti šesti se stejným počtem jader u Genoy.  podporuje paměti DDR5 o frekvenci 4800 MHz s maximální kapacitou 6 TB na procesor.

ZEN 4 / 4c jádra

Nová architektura serverových procesorů AMD EPYC nesoucí název „Zen 4“ přináší mnoho nových či vylepšených funkcí; nově přináší do procesorů rozšířenou instrukční sadu AVX-512, kterou dobře známe z Intelových procesorů. Ta umožňuje počítat s až 256 bitovými vektory a Double Precision floating point operacemi. AMD zmiňuje přínos pro sektory Natural Language Processingu (zpracování mluveného jazyka) nebo klasifikaci objektů a obrázků, kde má v průměru přinést až čtyřnásobné zrychlení.

Multi Socket řešení

Procesory Genoa umožňují i dvoučipové nasazení, kdy procesory jsou mezi sebou propojovány AMD Infinity Fabric technologií, čímž vytváří propoje s vysokým datovým tokem a rozšiřují i počet PCI-e gen. 5 linek na 160 (zbylých 96 je využito jako Fabric propoj).

Superpočítače postavené na AMD EPYCSuperpočítač Frontier

Frontier – aktuálně první Exa-scale superpočítač na světě. Současně drží první místo v žebříčku Top500.

Jeho papírový výkon má dosahovat až 1.6 ExaFLOPs, v praxi se potvrdilo 1.1 ExaFLOPs.
Jeho specifikace jsou:
9,472 purpose-built procesorů AMD EPYC 7A53, 64 jader, tedy celkově má systém přes 600,000 jader,  37,888 AMD Instinct MI250X karet a 47 PB RAM (5 TB na každý node, který se skládá z jednoho procesoru, paměti a 4 akcelerátorů). Superpočítač byl dostavěn v květnu 2022, celkově stál okolo 600 mil. USD.
Další chystaný superpočítač je El Capitan, který má běžet již na nové architektuře Zen 4c, tedy procesorech AMD EPYC Bergamo společně s nově uvedenými akcelerátory AMD Instinct MI300X.

Intel Xeon Sapphire Rapids

Intel Xeon Max Sapphire Rapids CPU

Procesory Intel Xeon Max jsou prvními x86 čipy na trhu, které přinášejí integrovanou High Bandwidth Paměť (HBM). Intel v tomto směru vidí možné zrychlení výpočtů a dalších běžných operací v HPC sféře. Bohužel jako jediný je stále vyráběn zastaralým Intel 7 (10nm)* procesem, takže nemůže dosáhnout takového potenciálu, jako čipy s nižším výrobním procesem, jako např. 7nm, který je v dnešní době víceméně standardem.

Intel Xeon Max nabízí až 60* výkonných jader složených ze čtyř čipů, které jsou propojeny technologií Intel multi-die interconnect bridge (EMIB). Dále procesor obsahuje již zmíněných 64 GB HBM paměti, podporu pro PCI Express 5.0 a CXL1.1 I/O. To vše s maximální spotřebou 350 wattů*. Xeon Max procesory tak mají kapacitu přes 1GB HBM paměti na jedno jádro, což je velikost, do které lze uložit většinu běžných HPC instrukcí a tímto způsobem výpočtu a běhu aplikací lze dosáhnout až 4.8x lepšího výkonu oproti konkurenčním řešením pro HPC.

Procesory Intel Xeon

CPU Market Share pie chart

Procesory Intel Xeon jsou dlouhodobě leader serverového sektoru na trhu – posledních 5 let si držely podíl přes 75% a první místa v seznamech nasazení. Pro mnoho společností jsou jasnou volbou díky široké podpoře funkcí, bezpečnosti, slušného poměru cena/výkon a dobré spolehlivosti.

HBM2E Paměť

Jak je výše zmíněno, Intel Xeon Max procesory mají integrovanou HBM paměť přímo do procesoru, čímž mohou vytvořit mnoho výhod pro pracovní prostředí serverových či HPC aplikací.
HBM paměť je totiž možné nakonfigurovat do několika „seskupení“, kdy z každého z nich může těžit jiná aplikace.Paměť lze jednak využívat jako pseudo-L4 cache, čímž se mohou urychlit aplikace závislé na rychlé paměti. Dále ji můžeme jednoduše spojit s celkovou systémovou pamětí, přičemž při konstrukci aplikací stále můžeme využívat předností HBM a konkrétně na ně cílit. Poslední možný scénář může vypadat tak, že celkový systém nemá žádnou systémovou paměť RAM, ale využívá pouze tu integrovanou v procesoru, čímž má stále přístup k poměrně velké kapacitě s obrovskou rychlostí.

Vícesocketové zapojení

Stejně jako jeho předchůdci, procesory Intel Xeon Max umožňjí vícesocketové zapojení, a to až po osmi čipech na jeden systém. Tím můžeme dosáhnout obrovského výkonu pro HPC aplikace, enormní kapacity paměti ram (až 48TB!) a ve spojení například s akcelerátory Intel Xe DC GPU lze vytvořit jednak cenově ne příliš náročný, ale také spolehlivý, výkonný a úsporný HPC systém. A předpokládáme uvedení HPE Superdome Flex, který bude škálovat ještě lépe.

Nasazení v superpočítačích

Očekávaný superpočítač Aurora

Největším superpočítačem, který má být postavený na platformě Intel Xeon Sapphire Rapids je očekávaný superpočítač Aurora. Slíbeno má například přes 7 PB paměti RAM a 150 PB úložiště. Vše bude propojeno technologiemi od společnosti CRAY, kterou Intel koupil a provozoval pod jménem Intel Omni-Path, ale později ukončil její vývoj (momentálně je podpora poskytována společností Cornelis networks). Dodání bylo oznámeno již v roce 2015, ovšem k dnešnímu datu je superpočítač stále ve výstavbě.

Superpočítač ve výsledku má dosahovat výkonu 150 PetaFLOPs se spotřebou cca 13 MW.

Reálné testy v praxi

Intel u své nejnovější řady slibuje vynikající výkon, což nově potvrzují i první testy procesoru v praxi. Velký posun je vidět například v sektoru, který má na trhu značně velký podíl a je tvoře

n převážně systémy střední třídy s počtem jader okolo 32.

Zde intel nasadil svůj 32-jádrový model 4. generace škálovatelných procesorů Intel Xeon proti konkurenčnímu procesoru s 32 jádry aktuální generace. V takovém porovnání procesor Intelu exceloval zejména v efektivitě, kdy Intel uvádí až o 50% lepší energetickou efektivitu vůči konkurenci, dále pak Intel nahání výkon se speciálním AI Enginem, který je vestavěný do každého Xeon jádra pro optimalizaci výkonu a vytížení. Následně rozhodně stojí za zmínku podpora Intel AMX (Advanced Matrix Extensions), což jsou knihony pro práci s maticemi a výpočty urychlující AI aplikace a jejich vývoj a nasazení.

IBM Power10IBM Power10 procesor pro HPC

IBM Power 10 procesory jsou nástupcem Power 9 procesorů z minulé generace, přičemž papírově mají nabízet při podobné spotřebě až dvojnásobný výpočetní výkon. Díky vlastní architektuře vyvíjenou přímo IBM, která je postavena na RISCu, dokážou pro speciálně navržené aplikace dodat mimořádný výkon. Pro systémy byl tradičně využíván systém IBM i, ovšem nově byla podpora rozšířena i o některé enterprise distribuce Linuxu.

IBM Memory Inception

Tato technologie od IBM umožňuje procesoru Power10 komunikaci s paměťovým clusterem o velikost až 2PB; to je poměrně vysoké číslo, jelikož většina systémů končí u 64TB, což je 32x méně. Paměťové propoje běží skrze nové rozhraní OMI (Open Memory Interface), které poskytuje vyšší datový tok a flexibulitu připojení. Momentálně se to může zdát jako obrovský přestřel, ale pro některé sítě umělé inteligence nebo strojového učení může být tato kapacita eventuelně adekvátní. Více zde

Další technologie jako Chipkill spolu s ECC zajišťuje integritu paměti a chrání proti jejímu poškození.

Kompletní redundance v 4U jednotce

IBM Power10 systémy mají plnou redundanci všech podstatných součástek, jako například chlazení či napájení. Na chladícím systému jde provádět údržbu i za běhu systému. U napájení lze provozovat systém bez přerušení i při výpadku dvou zdrojů. Dále mají paměti RAM a cahce aktivovanou službu AMM (Active Memory Mirroring), která konstantně zrcadlí potřebnou paměť pro to, aby při případném poškození dat za běhu systému, které nezvládne opravit ECC, nebyl chod systému narušen.

Trénování AI

Systémy postavené na procesorech Power10 jsou skvělou volbou pro trénování umělé inteligence. Procesory mají dedikovaná jádra pro výpočty s maticemi (MMA), které dokážou trénovací doby znatelně zkrátit. Následně vytrénovaný model je dostupný pod ONNX (Open Neural Network Exchange) a podporuje nejpoužívanější frameworky pro umělou inteligenci jako je PyTorch nebo TensorFlow, které lze využívat bez přepisování kódu při migraci z jiného systému.

ARM Ampere Altra Max M128-30 HPC CPUARM Ampere Altra (Max)

Nová serverová řada procesorů založených na architektuře ARM nese řadový název Altra. Pro naše porovnání jsme si vybrali model Altra Max M128-30, který má v názvu zaklíčované jedny ze svých klíčových vlastností – 128 jader s architekturou 7nm Neoverse N1 s frekvencí až 3 GHz.

Vysoký výkon i efektivita zároveň

Procesory Altra Max si zachovávají poměrně nízkou spotřebu oproti ostatním porovnávaným procesorům, a to přibližně 180 wattů. Pokud si tento údaj spojíme s tím, že ARMový procesor jeden z těch s nejvíce jádry při relativně vysoké frekvenci, a to vše za cenu necelých 6000 USD, rozhodně dostaneme vítěze v hrubém poměru cena / výkon i výkon / spotřeba.

Ampere Altra server with Altra M128-30 CPU

Vysokokapacitní Cache pro každé jádro

Každé jádro procesoru M128-80 má svoji vlasní dedikovanou 64KB L1-D cache a 1MB L2 cache. Tím se zamezí jakýmkoliv konfliktům o instrukce či primitivní data mezi jednotlivými jádry a paralelizace aplikací se nejen mnohonásobně urychlí, ale také usnadní její nasazení či vývoj.

Cloud-native procesor

Ampere Altra M128-30 byl stavěný s tím, že bude převážně nasazen jako cloud-coumputing procesor, případně i jako on-the-edge cloud computing.

Cloud Computing procesory jsou běžné serverové procesory přizpůsobeny řadou funkcí k tomu, aby byly využívány k počítání v cloudu a pracování s cloudovými aplikacemi. Mnoho firem vidí budoucnost aplikací a služeb v cloudech, tedy že veškerý obsah a data budou přístupné odkudkoliv z internetu (samozřejmě s řízeným přístupem) a tím se zjednoduší např. distribuce, usnadní se přístup k trénovaným AI modelům a podobně. Proto má Altra Max vysoký počet vysokorychlostních PCI linek pro síťové propoje a první základní desky mají např. OCI (Open Compute Interface) pro fabric propoje či jiné vysokorychlostní propojení.

NVIDIA Grace CPUNVIDIA Grace HPC superchip

Jednou z HPC novinek pro rok 2023 mají být speciální čipové sady NVIDIA Grace, kdy se jedná o kompletní výpočetní jednotky na jediné systémové desce. Ovšem očekáváme, že do produkce půjdou i systémy s pouze jedním SoC modulem a my tak budeme mít dalšího soupeře pro porovnání.

ARM Neoverse V2 jádra

Jak jsme si již zmínily u Altry Max, nová ARM architektura Neoverse s 5nm výrobním procesem od TSMC (TSMC 4N) je schopná vytvořit čipy s vysokým počtem jader na co nejmenší plochu, jako je tomu u 128 jádrové Altry M128-30.

Čipy Neoverse V jsou novou arm skupinou, která cílí převážně na co největší výkon na čip. Proto jejich hlavní využití primárně v HPC řešeních a podobých výpočetních clusterech, které se využívají opět např. pro trénování sítí pro umělou inteligenci. Zároveň pořád pracujeme s ARM architekturou, takže sestavit technické řešení s co největší výpočetní hustotou nebude zdaleka problém díky efektivnímu chlazení a nižší spotřebě.

Speciální instrukční sady pro HPC a strojové učení

Neoverse V2 jádra mají novou speciální instrukční sadu int8 pro aritmetické operace s maticemi. Tím by se měl značně zvýšit výkon při trénování neuronových sítí, v některých oblastech dokonce až 4x. Dále například sada BFloat16 umožňuje efektivnější pracování s floating point čísly a operacemi, sada SVE zase usnadňuje práci s vektory a urychluje jejich výpočty téměř 2x.

Srovnání výkonu procesorů

Ačkoliv je každá z architektur v něčem jiná a je poměrně těžké sehnat pro všechny několik jednotných testů, zde je sourn benchmarků všech čtyř procesorů a jejich výkonu v daném testu.

(některé informace chybí buďto z důvodu nekompatibility testu nebo neexistujících výsledků, případně budou doplněny, až budou informace dostupné)
* Uvedené informace jsou orientační a budou doplněny, až budou ověřené nebo dostupné.

PlatformaIntel XeonAMD EPYCIBM POWERARMNVIDIA
Model procesoruXeon Max 8490HEPYC 9754Power10 (S1080 system)Ampere Altra M128-30Grace
# jader601284512872
Base frekvence
3.3 GHz3.1 GHz4.0 GHz3.0 GHzTB/A
DP FLOPs / takt5,614 TFLOPs6,100 TFLOPs * 1,9 TFLOPs953.6 GFLOPsTB/A
Linpack RPeak / CPU*
6 336 GFLOPs12,697 GFLOPs5760 GFLOPs12 288 GFLOPs7100 GFLOPs
Linpack Rmax dual-socket server10 137 GFLOPs20,315 GFLOPs *9216 GFLOPs19 660 GFLOPsN/A
Memory bandwith (on-paper)650 GB/s *680 GB/s409 GB/s160 GB/s3,2 TB/s
SPECrate2017_int_base101022901700 (per-system)
359 (est.)740*
SPECrate2017_fp_base10202110TB/ATB/ATB/A

Energetická efektivita procesorů

U procesorů je užitečné také uvádět poměr např. cena/výkon, nebo spotřeba/výkon, jelikož toto mohlou být klíčové vlastnosti pro zákazníka, podle kterých si může vybrat architekturu pro svůj projekt. U HPC řešení to je více než klíčová vlastnost, jelikož v poslední době ceny energií letí prudce nahoru a je mnohem zodpovědnější provozovat řešení, které na svůj výkon je úspornější než stejně výkonná konkurence. Samozřejmě preference mohou být ovlivněny také jednotlivými funkcemi či cílené použití aplikace a technického řešení.

ProcesorIntel Xeon 8490HAMD EPYC 9654IBM Power10Ampere Altra Max M128-30NVIDIA Grace CPU
Výkon (Linpack RPeak)5614 GFLOPs6100 GFLOPs*1900 GFLOPs12288 GFLOPs7100 GFLOPs
Spotřeba
350 W400 W190 W170 W500 W
GFLOP / W16,04 GFLOP / W15,25 GFLOP / W10 GFLOP / W72,2 GFLOP / W14,2 GFLOP / W

Poměr cena / výkon

ProcesorIntel Xeon 8490HAMD EPYC 9654IBM Power10Ampere Altra Max M128-30NVIDIA Grace CPU
Výkon5614 GFLOP5376 GFLOP1900 GFLOP980 GFLOP7100 GFLOPs
Cena
12 980 USD11 805 USD35 000 USD5 800 USD
GFLOP / USD0,4 GFLOP / USD0,86 GFLOP / USD0,05 GFLOP / USD0,16 GFLOP / USD

Poznámky a zdroje dat

Benchmarky procesorů a specifikace:

Intel Xeon Max

https://insidehpc.com/2022/11/intel-officially-announces-ponte-vecchio-and-sapphire-rapids-hints-at-falcon-shores-xpu-in-2024/

https://www.techpowerup.com/300576/intel-4th-gen-xeon-scalable-sapphire-rapids-server-processors-launch-in-january

https://hothardware.com/reviews/hands-on-with-sapphire-rapids-intel-4th-gen-xeon

AMD EPYC 9654

https://browser.geekbench.com/v5/cpu/18692940

https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/14

https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/5

https://www.hpcwire.com/2022/11/10/amds-4th-gen-epyc-genoa-96-5nm-cores-across-12-compute-chiplets/

IBM Power10

https://mcomputers.cz/en/ibm-power10/

https://www.servethehome.com/ibm-power10-searching-for-the-holy-grail-of-compute/ 

https://www.nextplatform.com/2022/07/12/can-ibm-get-back-into-hpc-with-power10/

https://www.linleygroup.com/newsletters/newsletter_detail.php?num=6200&year=2020&tag=3

https://www.ibm.com/downloads/cas/K90RQOW8

ARM Ampere

https://www.servethehome.com/arm-neoverse-v2-cores-launched-for-nvidia-grace-and-cxl-2-0-pcie-gen5-cpus/

https://www.oracle.com/cz/cloud/compute/arm/

https://d1o0i0v5q5lp8h.cloudfront.net/ampere/live/assets/documents/Altra_Max_Rev_A1_DS_v1.05_20220728.pdf

https://d1o0i0v5q5lp8h.cloudfront.net/ampere/live/assets/documents/Altra_Max_Rev_A1_DS_v1.00_20220331.pdf

NVIDIA Grace

https://resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper

https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/