Serverové architektury pro HPC 2023

14.1.2023 (aktualizace 8.6.2023)

Představujeme porovnání procesorů a serverových architektur, které je možné na začátku roku 2023 nasadit především pro HPC aplikace a umělou inteligenci. V hlavní roli – AMD EPYC, Intel Xeon, IBM POWER, ARM Ampere a NVIDIA Grace.

Porovnání architektur

Stejně jako v našem předchozím porovnání serverových architektur v roce 2020 jsme pro srovnávání vybrali 5 aktuálně nejpopulárnějších procesorových architektur a od každé z nich model s nejvyššími parametry. U každého modelu jsou uvedeny klíčové parametry a souhrn jeho nejpřínosnějších funkcí využívaných v oblastech HPC (High Performance Computing) a AI (Artificial Inteligence).

Na závěr jsou připravena porovnání v oblasti výpočetního výkonu, spotřeby, efektivity a ekonomické výhodnosti.

Ne všechny informace jsou dostupné/ověřené. Tyto informace v textu označujeme hvězdičkou * s uvedením zdrojů na konci článku.

Superpočítač Karolina, nejvýkonnější v ČR | IT4I VŠB TUO, Ostrava

Detailní popis jednotlivých architektur

AMD EPYC Intel Xeon IBM Power ARM Ampere NVIDIA Grace

Technické parametry

Platforma	Intel Xeon	AMD EPYC	IBM POWER	ARM	NVIDIA
Název procesoru	Intel Xeon 8490H	AMD EPYC 9754	IBM POWER10 EPGD/EPGK	Ampere Altra Max M128-30	NVIDIA Grace CPU
Generace	Intel Xeon 4th gen	AMD Epyc 4th gen	IBM Power 10th gen	Arm Neoverse V1 v8.1/v8.2+	Arm Neoverse V2 v9.0-A
max. # CPU / server	8	2	2	2	2
max. # jader / CPU	60	128	24	128	72
# threadů na jádro	2	2	8	1	2
# threadů / CPU	120	256	192	128	144
základní frekvence	1,9 GHz	2,25 GHz	2,7 GHz	2,6 GHz	TB/A
Turbo frekvence	3,5 GHz	3,1 GHz	3,5 GHz	3 GHz	TB/A
# paměť. kanálů	8	12	16	8	32
velikost L3 cache	112,5 MB	256 MB	120 MB	16 MB	117 MB
max. rychlost pamětí	DDR5 – 4800	DDR5 – 4800	DDR5 – 4800	DDR4 – 3200	LPDDR5 – 4800
max. RAM / CPU	6 TB	6 TB	6 TB	4 TB	512 GB
verze PCIe / CPU	PCIe gen 5	PCIe gen 5	PCIe gen 5	PCIe gen 4	PCIe gen 5
# PCI linek / CPU	80	128	32	128	68
TDP procesoru	350 W	360 W	190 W	250 W	500 W **
výrobní proces	Intel 7	5 nm	7 nm	7 nm Neoverse	5 nm TSMC 4N
Počet tranzistorů	100 miliard	82 miliard	18 miliard	30 miliard *	16 miliard *
továrna na výrobu	Intel	TSCM	Samsung	TSMC	TSMC
listová cena	17 000 USD	11 900 USD	35 000 USD	5 800 USD	TB/A
datum oznámení	Q2 2021	Q3 2022	Q2 2020	Q2 2020	Q4 2023*
specifikace	více informací	více informací	více informací	více informací	více informací

Údaje označené * jsou neoficiální/očekávané údaje podle zdrojů z internetu. ** TDP je dimenzováno na celý SoC modul.

AMD EPYC 4. generace

Nová generace procesorů AMD EPYC přináší hodně nového. Pro naše porovnání jsme vybrali konkrétně model EPYC 9754, který nabízí 128 x86 jader, které ho ještě s dalšímí funkcemi pasují na nejvýkonnější x86 serverový procesor vůbec. S variabilní spotřebou si může říct až o 400 wattů a dosahuje taktů až 3.1 GHz na všech jádrech.

Z pohledu paměti má 256 MB L3 Cache, což je sice méně, než má top model řady Genoa, který má 384 MB L3, ovšem to je kompromis k architektuře jednotlivých čipletů, kterých má EPYC 9754 po osmi, přičemž každý má 16 jader, oproti šesti se stejným počtem jader u Genoy. podporuje paměti DDR5 o frekvenci 4800 MHz s maximální kapacitou 6 TB na procesor.

ZEN 4 / 4c jádra

Nová architektura serverových procesorů AMD EPYC nesoucí název „Zen 4“ přináší mnoho nových či vylepšených funkcí; nově přináší do procesorů rozšířenou instrukční sadu AVX-512, kterou dobře známe z Intelových procesorů. Ta umožňuje počítat s až 256 bitovými vektory a Double Precision floating point operacemi. AMD zmiňuje přínos pro sektory Natural Language Processingu (zpracování mluveného jazyka) nebo klasifikaci objektů a obrázků, kde má v průměru přinést až čtyřnásobné zrychlení.

Multi Socket řešení

Procesory Genoa umožňují i dvoučipové nasazení, kdy procesory jsou mezi sebou propojovány AMD Infinity Fabric technologií, čímž vytváří propoje s vysokým datovým tokem a rozšiřují i počet PCI-e gen. 5 linek na 160 (zbylých 96 je využito jako Fabric propoj).

Superpočítače postavené na AMD EPYC

Frontier – aktuálně první Exa-scale superpočítač na světě. Současně drží první místo v žebříčku Top500.

Jeho papírový výkon má dosahovat až 1.6 ExaFLOPs, v praxi se potvrdilo 1.1 ExaFLOPs.
Jeho specifikace jsou:
9,472 purpose-built procesorů AMD EPYC 7A53, 64 jader, tedy celkově má systém přes 600,000 jader, 37,888 AMD Instinct MI250X karet a 47 PB RAM (5 TB na každý node, který se skládá z jednoho procesoru, paměti a 4 akcelerátorů). Superpočítač byl dostavěn v květnu 2022, celkově stál okolo 600 mil. USD.
Další chystaný superpočítač je El Capitan, který má běžet již na nové architektuře Zen 4c, tedy procesorech AMD EPYC Bergamo společně s nově uvedenými akcelerátory AMD Instinct MI300X.

Intel Xeon Sapphire Rapids

Intel Xeon Max Sapphire Rapids CPU

Procesory Intel Xeon Max jsou prvními x86 čipy na trhu, které přinášejí integrovanou High Bandwidth Paměť (HBM). Intel v tomto směru vidí možné zrychlení výpočtů a dalších běžných operací v HPC sféře. Bohužel jako jediný je stále vyráběn zastaralým Intel 7 (10nm)* procesem, takže nemůže dosáhnout takového potenciálu, jako čipy s nižším výrobním procesem, jako např. 7nm, který je v dnešní době víceméně standardem.

Intel Xeon Max nabízí až 60* výkonných jader složených ze čtyř čipů, které jsou propojeny technologií Intel multi-die interconnect bridge (EMIB). Dále procesor obsahuje již zmíněných 64 GB HBM paměti, podporu pro PCI Express 5.0 a CXL1.1 I/O. To vše s maximální spotřebou 350 wattů*. Xeon Max procesory tak mají kapacitu přes 1GB HBM paměti na jedno jádro, což je velikost, do které lze uložit většinu běžných HPC instrukcí a tímto způsobem výpočtu a běhu aplikací lze dosáhnout až 4.8x lepšího výkonu oproti konkurenčním řešením pro HPC.

Procesory Intel Xeon

Procesory Intel Xeon jsou dlouhodobě leader serverového sektoru na trhu – posledních 5 let si držely podíl přes 75% a první místa v seznamech nasazení. Pro mnoho společností jsou jasnou volbou díky široké podpoře funkcí, bezpečnosti, slušného poměru cena/výkon a dobré spolehlivosti.

HBM2E Paměť

Jak je výše zmíněno, Intel Xeon Max procesory mají integrovanou HBM paměť přímo do procesoru, čímž mohou vytvořit mnoho výhod pro pracovní prostředí serverových či HPC aplikací.
HBM paměť je totiž možné nakonfigurovat do několika „seskupení“, kdy z každého z nich může těžit jiná aplikace.Paměť lze jednak využívat jako pseudo-L4 cache, čímž se mohou urychlit aplikace závislé na rychlé paměti. Dále ji můžeme jednoduše spojit s celkovou systémovou pamětí, přičemž při konstrukci aplikací stále můžeme využívat předností HBM a konkrétně na ně cílit. Poslední možný scénář může vypadat tak, že celkový systém nemá žádnou systémovou paměť RAM, ale využívá pouze tu integrovanou v procesoru, čímž má stále přístup k poměrně velké kapacitě s obrovskou rychlostí.

Vícesocketové zapojení

Stejně jako jeho předchůdci, procesory Intel Xeon Max umožňjí vícesocketové zapojení, a to až po osmi čipech na jeden systém. Tím můžeme dosáhnout obrovského výkonu pro HPC aplikace, enormní kapacity paměti ram (až 48TB!) a ve spojení například s akcelerátory Intel Xe DC GPU lze vytvořit jednak cenově ne příliš náročný, ale také spolehlivý, výkonný a úsporný HPC systém. A předpokládáme uvedení HPE Superdome Flex, který bude škálovat ještě lépe.

Nasazení v superpočítačích

Očekávaný superpočítač Aurora

Největším superpočítačem, který má být postavený na platformě Intel Xeon Sapphire Rapids je očekávaný superpočítač Aurora. Slíbeno má například přes 7 PB paměti RAM a 150 PB úložiště. Vše bude propojeno technologiemi od společnosti CRAY, kterou Intel koupil a provozoval pod jménem Intel Omni-Path, ale později ukončil její vývoj (momentálně je podpora poskytována společností Cornelis networks). Dodání bylo oznámeno již v roce 2015, ovšem k dnešnímu datu je superpočítač stále ve výstavbě.

Superpočítač ve výsledku má dosahovat výkonu 150 PetaFLOPs se spotřebou cca 13 MW.

Reálné testy v praxi

Intel u své nejnovější řady slibuje vynikající výkon, což nově potvrzují i první testy procesoru v praxi. Velký posun je vidět například v sektoru, který má na trhu značně velký podíl a je tvoře

n převážně systémy střední třídy s počtem jader okolo 32.

Zde intel nasadil svůj 32-jádrový model 4. generace škálovatelných procesorů Intel Xeon proti konkurenčnímu procesoru s 32 jádry aktuální generace. V takovém porovnání procesor Intelu exceloval zejména v efektivitě, kdy Intel uvádí až o 50% lepší energetickou efektivitu vůči konkurenci, dále pak Intel nahání výkon se speciálním AI Enginem, který je vestavěný do každého Xeon jádra pro optimalizaci výkonu a vytížení. Následně rozhodně stojí za zmínku podpora Intel AMX (Advanced Matrix Extensions), což jsou knihony pro práci s maticemi a výpočty urychlující AI aplikace a jejich vývoj a nasazení.

IBM Power10

IBM Power 10 procesory jsou nástupcem Power 9 procesorů z minulé generace, přičemž papírově mají nabízet při podobné spotřebě až dvojnásobný výpočetní výkon. Díky vlastní architektuře vyvíjenou přímo IBM, která je postavena na RISCu, dokážou pro speciálně navržené aplikace dodat mimořádný výkon. Pro systémy byl tradičně využíván systém IBM i, ovšem nově byla podpora rozšířena i o některé enterprise distribuce Linuxu.

IBM Memory Inception

Tato technologie od IBM umožňuje procesoru Power10 komunikaci s paměťovým clusterem o velikost až 2PB; to je poměrně vysoké číslo, jelikož většina systémů končí u 64TB, což je 32x méně. Paměťové propoje běží skrze nové rozhraní OMI (Open Memory Interface), které poskytuje vyšší datový tok a flexibulitu připojení. Momentálně se to může zdát jako obrovský přestřel, ale pro některé sítě umělé inteligence nebo strojového učení může být tato kapacita eventuelně adekvátní. Více zde

Další technologie jako Chipkill spolu s ECC zajišťuje integritu paměti a chrání proti jejímu poškození.

Kompletní redundance v 4U jednotce

IBM Power10 systémy mají plnou redundanci všech podstatných součástek, jako například chlazení či napájení. Na chladícím systému jde provádět údržbu i za běhu systému. U napájení lze provozovat systém bez přerušení i při výpadku dvou zdrojů. Dále mají paměti RAM a cahce aktivovanou službu AMM (Active Memory Mirroring), která konstantně zrcadlí potřebnou paměť pro to, aby při případném poškození dat za běhu systému, které nezvládne opravit ECC, nebyl chod systému narušen.

Trénování AI

Systémy postavené na procesorech Power10 jsou skvělou volbou pro trénování umělé inteligence. Procesory mají dedikovaná jádra pro výpočty s maticemi (MMA), které dokážou trénovací doby znatelně zkrátit. Následně vytrénovaný model je dostupný pod ONNX (Open Neural Network Exchange) a podporuje nejpoužívanější frameworky pro umělou inteligenci jako je PyTorch nebo TensorFlow, které lze využívat bez přepisování kódu při migraci z jiného systému.

ARM Ampere Altra (Max)

Nová serverová řada procesorů založených na architektuře ARM nese řadový název Altra. Pro naše porovnání jsme si vybrali model Altra Max M128-30, který má v názvu zaklíčované jedny ze svých klíčových vlastností – 128 jader s architekturou 7nm Neoverse N1 s frekvencí až 3 GHz.

Vysoký výkon i efektivita zároveň

Procesory Altra Max si zachovávají poměrně nízkou spotřebu oproti ostatním porovnávaným procesorům, a to přibližně 180 wattů. Pokud si tento údaj spojíme s tím, že ARMový procesor jeden z těch s nejvíce jádry při relativně vysoké frekvenci, a to vše za cenu necelých 6000 USD, rozhodně dostaneme vítěze v hrubém poměru cena / výkon i výkon / spotřeba.

Ampere Altra server with Altra M128-30 CPU

Vysokokapacitní Cache pro každé jádro

Každé jádro procesoru M128-80 má svoji vlasní dedikovanou 64KB L1-D cache a 1MB L2 cache. Tím se zamezí jakýmkoliv konfliktům o instrukce či primitivní data mezi jednotlivými jádry a paralelizace aplikací se nejen mnohonásobně urychlí, ale také usnadní její nasazení či vývoj.

Cloud-native procesor

Ampere Altra M128-30 byl stavěný s tím, že bude převážně nasazen jako cloud-coumputing procesor, případně i jako on-the-edge cloud computing.

Cloud Computing procesory jsou běžné serverové procesory přizpůsobeny řadou funkcí k tomu, aby byly využívány k počítání v cloudu a pracování s cloudovými aplikacemi. Mnoho firem vidí budoucnost aplikací a služeb v cloudech, tedy že veškerý obsah a data budou přístupné odkudkoliv z internetu (samozřejmě s řízeným přístupem) a tím se zjednoduší např. distribuce, usnadní se přístup k trénovaným AI modelům a podobně. Proto má Altra Max vysoký počet vysokorychlostních PCI linek pro síťové propoje a první základní desky mají např. OCI (Open Compute Interface) pro fabric propoje či jiné vysokorychlostní propojení.

NVIDIA Grace CPU

Jednou z HPC novinek pro rok 2023 mají být speciální čipové sady NVIDIA Grace, kdy se jedná o kompletní výpočetní jednotky na jediné systémové desce. Ovšem očekáváme, že do produkce půjdou i systémy s pouze jedním SoC modulem a my tak budeme mít dalšího soupeře pro porovnání.

ARM Neoverse V2 jádra

Jak jsme si již zmínily u Altry Max, nová ARM architektura Neoverse s 5nm výrobním procesem od TSMC (TSMC 4N) je schopná vytvořit čipy s vysokým počtem jader na co nejmenší plochu, jako je tomu u 128 jádrové Altry M128-30.

Čipy Neoverse V jsou novou arm skupinou, která cílí převážně na co největší výkon na čip. Proto jejich hlavní využití primárně v HPC řešeních a podobých výpočetních clusterech, které se využívají opět např. pro trénování sítí pro umělou inteligenci. Zároveň pořád pracujeme s ARM architekturou, takže sestavit technické řešení s co největší výpočetní hustotou nebude zdaleka problém díky efektivnímu chlazení a nižší spotřebě.

Speciální instrukční sady pro HPC a strojové učení

Neoverse V2 jádra mají novou speciální instrukční sadu int8 pro aritmetické operace s maticemi. Tím by se měl značně zvýšit výkon při trénování neuronových sítí, v některých oblastech dokonce až 4x. Dále například sada BFloat16 umožňuje efektivnější pracování s floating point čísly a operacemi, sada SVE zase usnadňuje práci s vektory a urychluje jejich výpočty téměř 2x.

Srovnání výkonu procesorů

Ačkoliv je každá z architektur v něčem jiná a je poměrně těžké sehnat pro všechny několik jednotných testů, zde je sourn benchmarků všech čtyř procesorů a jejich výkonu v daném testu.

(některé informace chybí buďto z důvodu nekompatibility testu nebo neexistujících výsledků, případně budou doplněny, až budou informace dostupné)
* Uvedené informace jsou orientační a budou doplněny, až budou ověřené nebo dostupné.

Platforma	Intel Xeon	AMD EPYC	IBM POWER	ARM	NVIDIA
Model procesoru	Xeon Max 8490H	EPYC 9754	Power10 (S1080 system)	Ampere Altra M128-30	Grace
# jader	60	128	45	128	72
Base frekvence	3.3 GHz	3.1 GHz	4.0 GHz	3.0 GHz	TB/A
DP FLOPs / takt	5,614 TFLOPs	6,100 TFLOPs *	1,9 TFLOPs	953.6 GFLOPs	TB/A
Linpack RPeak / CPU*	6 336 GFLOPs	12,697 GFLOPs	5760 GFLOPs	12 288 GFLOPs	7100 GFLOPs
Linpack Rmax dual-socket server	10 137 GFLOPs	20,315 GFLOPs *	9216 GFLOPs	19 660 GFLOPs	N/A
Memory bandwith (on-paper)	650 GB/s *	680 GB/s	409 GB/s	160 GB/s	3,2 TB/s
SPECrate2017_int_base	1010	2290	1700 (per-system)	359 (est.)	740*
SPECrate2017_fp_base	1020	2110	TB/A	TB/A	TB/A

Energetická efektivita procesorů

U procesorů je užitečné také uvádět poměr např. cena/výkon, nebo spotřeba/výkon, jelikož toto mohlou být klíčové vlastnosti pro zákazníka, podle kterých si může vybrat architekturu pro svůj projekt. U HPC řešení to je více než klíčová vlastnost, jelikož v poslední době ceny energií letí prudce nahoru a je mnohem zodpovědnější provozovat řešení, které na svůj výkon je úspornější než stejně výkonná konkurence. Samozřejmě preference mohou být ovlivněny také jednotlivými funkcemi či cílené použití aplikace a technického řešení.

Procesor	Intel Xeon 8490H	AMD EPYC 9654	IBM Power10	Ampere Altra Max M128-30	NVIDIA Grace CPU
Výkon (Linpack RPeak)	5614 GFLOPs	6100 GFLOPs*	1900 GFLOPs	12288 GFLOPs	7100 GFLOPs
Spotřeba	350 W	400 W	190 W	170 W	500 W
GFLOP / W	16,04 GFLOP / W	15,25 GFLOP / W	10 GFLOP / W	72,2 GFLOP / W	14,2 GFLOP / W

Poměr cena / výkon

Procesor	Intel Xeon 8490H	AMD EPYC 9654	IBM Power10	Ampere Altra Max M128-30	NVIDIA Grace CPU
Výkon	5614 GFLOP	5376 GFLOP	1900 GFLOP	980 GFLOP	7100 GFLOPs
Cena	12 980 USD	11 805 USD	35 000 USD	5 800 USD	–
GFLOP / USD	0,4 GFLOP / USD	0,86 GFLOP / USD	0,05 GFLOP / USD	0,16 GFLOP / USD	–

Poznámky a zdroje dat

Benchmarky procesorů a specifikace:

Intel Xeon Max

https://insidehpc.com/2022/11/intel-officially-announces-ponte-vecchio-and-sapphire-rapids-hints-at-falcon-shores-xpu-in-2024/

https://www.techpowerup.com/300576/intel-4th-gen-xeon-scalable-sapphire-rapids-server-processors-launch-in-january

https://hothardware.com/reviews/hands-on-with-sapphire-rapids-intel-4th-gen-xeon

AMD EPYC 9654

https://browser.geekbench.com/v5/cpu/18692940

https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/14

https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/5

https://www.hpcwire.com/2022/11/10/amds-4th-gen-epyc-genoa-96-5nm-cores-across-12-compute-chiplets/

IBM Power10

https://mcomputers.cz/en/ibm-power10/

https://www.servethehome.com/ibm-power10-searching-for-the-holy-grail-of-compute/

https://www.nextplatform.com/2022/07/12/can-ibm-get-back-into-hpc-with-power10/

https://www.linleygroup.com/newsletters/newsletter_detail.php?num=6200&year=2020&tag=3

https://www.ibm.com/downloads/cas/K90RQOW8

ARM Ampere

https://www.servethehome.com/arm-neoverse-v2-cores-launched-for-nvidia-grace-and-cxl-2-0-pcie-gen5-cpus/

https://www.oracle.com/cz/cloud/compute/arm/

https://d1o0i0v5q5lp8h.cloudfront.net/ampere/live/assets/documents/Altra_Max_Rev_A1_DS_v1.05_20220728.pdf

https://d1o0i0v5q5lp8h.cloudfront.net/ampere/live/assets/documents/Altra_Max_Rev_A1_DS_v1.00_20220331.pdf

NVIDIA Grace

https://resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper

https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/

Serverové architektury pro HPC 2023

Představujeme porovnání procesorů a serverových architektur, které je možné na začátku roku 2023 nasadit především pro HPC aplikace a umělou inteligenci. V hlavní roli – AMD EPYC, Intel Xeon, IBM POWER, ARM Ampere a NVIDIA Grace.

Porovnání architektur

Detailní popis jednotlivých architektur

Technické parametry

AMD EPYC 4. generace

ZEN 4 / 4c jádra

Multi Socket řešení

Superpočítače postavené na AMD EPYC

Intel Xeon Sapphire Rapids

Procesory Intel Xeon

HBM2E Paměť

Vícesocketové zapojení

Nasazení v superpočítačích

Reálné testy v praxi

IBM Power10

IBM Memory Inception

Kompletní redundance v 4U jednotce

Trénování AI

ARM Ampere Altra (Max)

Vysoký výkon i efektivita zároveň

Vysokokapacitní Cache pro každé jádro

Cloud-native procesor

NVIDIA Grace CPU

ARM Neoverse V2 jádra

Speciální instrukční sady pro HPC a strojové učení

Srovnání výkonu procesorů

Energetická efektivita procesorů

Poměr cena / výkon

Poznámky a zdroje dat

O nás

Produkty NVIDIA

Produkty Intel a AMD

Kontakt