Serverové architektury pro HPC 2023
14.1.2023 (aktualizace 8.6.2023)
Porovnání architektur
Stejně jako v našem předchozím porovnání serverových architektur v roce 2020 jsme pro srovnávání vybrali 5 aktuálně nejpopulárnějších procesorových architektur a od každé z nich model s nejvyššími parametry. U každého modelu jsou uvedeny klíčové parametry a souhrn jeho nejpřínosnějších funkcí využívaných v oblastech HPC (High Performance Computing) a AI (Artificial Inteligence).
Na závěr jsou připravena porovnání v oblasti výpočetního výkonu, spotřeby, efektivity a ekonomické výhodnosti.
Ne všechny informace jsou dostupné/ověřené. Tyto informace v textu označujeme hvězdičkou * s uvedením zdrojů na konci článku.
Superpočítač Karolina, nejvýkonnější v ČR | IT4I VŠB TUO, Ostrava
Detailní popis jednotlivých architektur
Technické parametry
Platforma | Intel Xeon | AMD EPYC | IBM POWER | ARM | NVIDIA |
---|---|---|---|---|---|
Název procesoru | Intel Xeon 8490H | AMD EPYC 9754 | IBM POWER10 EPGD/EPGK | Ampere Altra Max M128-30 | NVIDIA Grace CPU |
Generace | Intel Xeon 4th gen | AMD Epyc 4th gen | IBM Power 10th gen | Arm Neoverse V1 v8.1/v8.2+ | Arm Neoverse V2 v9.0-A |
max. # CPU / server | 8 | 2 | 2 | 2 | 2 |
max. # jader / CPU | 60 | 128 | 24 | 128 | 72 |
# threadů na jádro | 2 | 2 | 8 | 1 | 2 |
# threadů / CPU | 120 | 256 | 192 | 128 | 144 |
základní frekvence | 1,9 GHz | 2,25 GHz | 2,7 GHz | 2,6 GHz | TB/A |
Turbo frekvence | 3,5 GHz | 3,1 GHz | 3,5 GHz | 3 GHz | TB/A |
# paměť. kanálů | 8 | 12 | 16 | 8 | 32 |
velikost L3 cache | 112,5 MB | 256 MB | 120 MB | 16 MB | 117 MB |
max. rychlost pamětí | DDR5 – 4800 | DDR5 – 4800 | DDR5 – 4800 | DDR4 – 3200 | LPDDR5 – 4800 |
max. RAM / CPU | 6 TB | 6 TB | 6 TB | 4 TB | 512 GB |
verze PCIe / CPU | PCIe gen 5 | PCIe gen 5 | PCIe gen 5 | PCIe gen 4 | PCIe gen 5 |
# PCI linek / CPU | 80 | 128 | 32 | 128 | 68 |
TDP procesoru | 350 W | 360 W | 190 W | 250 W | 500 W ** |
výrobní proces | Intel 7 | 5 nm | 7 nm | 7 nm Neoverse | 5 nm TSMC 4N |
Počet tranzistorů | 100 miliard | 82 miliard | 18 miliard | 30 miliard * | 16 miliard * |
továrna na výrobu | Intel | TSCM | Samsung | TSMC | TSMC |
listová cena | 17 000 USD | 11 900 USD | 35 000 USD | 5 800 USD | TB/A |
datum oznámení | Q2 2021 | Q3 2022 | Q2 2020 | Q2 2020 | Q4 2023* |
specifikace | více informací | více informací | více informací | více informací | více informací |
Údaje označené * jsou neoficiální/očekávané údaje podle zdrojů z internetu. ** TDP je dimenzováno na celý SoC modul.
AMD EPYC 4. generace
Nová generace procesorů AMD EPYC přináší hodně nového. Pro naše porovnání jsme vybrali konkrétně model EPYC 9754, který nabízí 128 x86 jader, které ho ještě s dalšímí funkcemi pasují na nejvýkonnější x86 serverový procesor vůbec. S variabilní spotřebou si může říct až o 400 wattů a dosahuje taktů až 3.1 GHz na všech jádrech.
Z pohledu paměti má 256 MB L3 Cache, což je sice méně, než má top model řady Genoa, který má 384 MB L3, ovšem to je kompromis k architektuře jednotlivých čipletů, kterých má EPYC 9754 po osmi, přičemž každý má 16 jader, oproti šesti se stejným počtem jader u Genoy. podporuje paměti DDR5 o frekvenci 4800 MHz s maximální kapacitou 6 TB na procesor.
ZEN 4 / 4c jádra
Nová architektura serverových procesorů AMD EPYC nesoucí název „Zen 4“ přináší mnoho nových či vylepšených funkcí; nově přináší do procesorů rozšířenou instrukční sadu AVX-512, kterou dobře známe z Intelových procesorů. Ta umožňuje počítat s až 256 bitovými vektory a Double Precision floating point operacemi. AMD zmiňuje přínos pro sektory Natural Language Processingu (zpracování mluveného jazyka) nebo klasifikaci objektů a obrázků, kde má v průměru přinést až čtyřnásobné zrychlení.
Multi Socket řešení
Procesory Genoa umožňují i dvoučipové nasazení, kdy procesory jsou mezi sebou propojovány AMD Infinity Fabric technologií, čímž vytváří propoje s vysokým datovým tokem a rozšiřují i počet PCI-e gen. 5 linek na 160 (zbylých 96 je využito jako Fabric propoj).
Superpočítače postavené na AMD EPYC
Frontier – aktuálně první Exa-scale superpočítač na světě. Současně drží první místo v žebříčku Top500.
Jeho papírový výkon má dosahovat až 1.6 ExaFLOPs, v praxi se potvrdilo 1.1 ExaFLOPs.
Jeho specifikace jsou:
9,472 purpose-built procesorů AMD EPYC 7A53, 64 jader, tedy celkově má systém přes 600,000 jader, 37,888 AMD Instinct MI250X karet a 47 PB RAM (5 TB na každý node, který se skládá z jednoho procesoru, paměti a 4 akcelerátorů). Superpočítač byl dostavěn v květnu 2022, celkově stál okolo 600 mil. USD.
Další chystaný superpočítač je El Capitan, který má běžet již na nové architektuře Zen 4c, tedy procesorech AMD EPYC Bergamo společně s nově uvedenými akcelerátory AMD Instinct MI300X.
Intel Xeon Sapphire Rapids
Procesory Intel Xeon Max jsou prvními x86 čipy na trhu, které přinášejí integrovanou High Bandwidth Paměť (HBM). Intel v tomto směru vidí možné zrychlení výpočtů a dalších běžných operací v HPC sféře. Bohužel jako jediný je stále vyráběn zastaralým Intel 7 (10nm)* procesem, takže nemůže dosáhnout takového potenciálu, jako čipy s nižším výrobním procesem, jako např. 7nm, který je v dnešní době víceméně standardem.
Intel Xeon Max nabízí až 60* výkonných jader složených ze čtyř čipů, které jsou propojeny technologií Intel multi-die interconnect bridge (EMIB). Dále procesor obsahuje již zmíněných 64 GB HBM paměti, podporu pro PCI Express 5.0 a CXL1.1 I/O. To vše s maximální spotřebou 350 wattů*. Xeon Max procesory tak mají kapacitu přes 1GB HBM paměti na jedno jádro, což je velikost, do které lze uložit většinu běžných HPC instrukcí a tímto způsobem výpočtu a běhu aplikací lze dosáhnout až 4.8x lepšího výkonu oproti konkurenčním řešením pro HPC.
Procesory Intel Xeon
Procesory Intel Xeon jsou dlouhodobě leader serverového sektoru na trhu – posledních 5 let si držely podíl přes 75% a první místa v seznamech nasazení. Pro mnoho společností jsou jasnou volbou díky široké podpoře funkcí, bezpečnosti, slušného poměru cena/výkon a dobré spolehlivosti.
HBM2E Paměť
Jak je výše zmíněno, Intel Xeon Max procesory mají integrovanou HBM paměť přímo do procesoru, čímž mohou vytvořit mnoho výhod pro pracovní prostředí serverových či HPC aplikací.
HBM paměť je totiž možné nakonfigurovat do několika „seskupení“, kdy z každého z nich může těžit jiná aplikace.Paměť lze jednak využívat jako pseudo-L4 cache, čímž se mohou urychlit aplikace závislé na rychlé paměti. Dále ji můžeme jednoduše spojit s celkovou systémovou pamětí, přičemž při konstrukci aplikací stále můžeme využívat předností HBM a konkrétně na ně cílit. Poslední možný scénář může vypadat tak, že celkový systém nemá žádnou systémovou paměť RAM, ale využívá pouze tu integrovanou v procesoru, čímž má stále přístup k poměrně velké kapacitě s obrovskou rychlostí.
Vícesocketové zapojení
Stejně jako jeho předchůdci, procesory Intel Xeon Max umožňjí vícesocketové zapojení, a to až po osmi čipech na jeden systém. Tím můžeme dosáhnout obrovského výkonu pro HPC aplikace, enormní kapacity paměti ram (až 48TB!) a ve spojení například s akcelerátory Intel Xe DC GPU lze vytvořit jednak cenově ne příliš náročný, ale také spolehlivý, výkonný a úsporný HPC systém. A předpokládáme uvedení HPE Superdome Flex, který bude škálovat ještě lépe.
Nasazení v superpočítačích
Největším superpočítačem, který má být postavený na platformě Intel Xeon Sapphire Rapids je očekávaný superpočítač Aurora. Slíbeno má například přes 7 PB paměti RAM a 150 PB úložiště. Vše bude propojeno technologiemi od společnosti CRAY, kterou Intel koupil a provozoval pod jménem Intel Omni-Path, ale později ukončil její vývoj (momentálně je podpora poskytována společností Cornelis networks). Dodání bylo oznámeno již v roce 2015, ovšem k dnešnímu datu je superpočítač stále ve výstavbě.
Superpočítač ve výsledku má dosahovat výkonu 150 PetaFLOPs se spotřebou cca 13 MW.
Reálné testy v praxi
Intel u své nejnovější řady slibuje vynikající výkon, což nově potvrzují i první testy procesoru v praxi. Velký posun je vidět například v sektoru, který má na trhu značně velký podíl a je tvoře
n převážně systémy střední třídy s počtem jader okolo 32.
Zde intel nasadil svůj 32-jádrový model 4. generace škálovatelných procesorů Intel Xeon proti konkurenčnímu procesoru s 32 jádry aktuální generace. V takovém porovnání procesor Intelu exceloval zejména v efektivitě, kdy Intel uvádí až o 50% lepší energetickou efektivitu vůči konkurenci, dále pak Intel nahání výkon se speciálním AI Enginem, který je vestavěný do každého Xeon jádra pro optimalizaci výkonu a vytížení. Následně rozhodně stojí za zmínku podpora Intel AMX (Advanced Matrix Extensions), což jsou knihony pro práci s maticemi a výpočty urychlující AI aplikace a jejich vývoj a nasazení.
IBM Power10
IBM Power 10 procesory jsou nástupcem Power 9 procesorů z minulé generace, přičemž papírově mají nabízet při podobné spotřebě až dvojnásobný výpočetní výkon. Díky vlastní architektuře vyvíjenou přímo IBM, která je postavena na RISCu, dokážou pro speciálně navržené aplikace dodat mimořádný výkon. Pro systémy byl tradičně využíván systém IBM i, ovšem nově byla podpora rozšířena i o některé enterprise distribuce Linuxu.
IBM Memory Inception
Tato technologie od IBM umožňuje procesoru Power10 komunikaci s paměťovým clusterem o velikost až 2PB; to je poměrně vysoké číslo, jelikož většina systémů končí u 64TB, což je 32x méně. Paměťové propoje běží skrze nové rozhraní OMI (Open Memory Interface), které poskytuje vyšší datový tok a flexibulitu připojení. Momentálně se to může zdát jako obrovský přestřel, ale pro některé sítě umělé inteligence nebo strojového učení může být tato kapacita eventuelně adekvátní. Více zde
Další technologie jako Chipkill spolu s ECC zajišťuje integritu paměti a chrání proti jejímu poškození.
Kompletní redundance v 4U jednotce
IBM Power10 systémy mají plnou redundanci všech podstatných součástek, jako například chlazení či napájení. Na chladícím systému jde provádět údržbu i za běhu systému. U napájení lze provozovat systém bez přerušení i při výpadku dvou zdrojů. Dále mají paměti RAM a cahce aktivovanou službu AMM (Active Memory Mirroring), která konstantně zrcadlí potřebnou paměť pro to, aby při případném poškození dat za běhu systému, které nezvládne opravit ECC, nebyl chod systému narušen.
Trénování AI
Systémy postavené na procesorech Power10 jsou skvělou volbou pro trénování umělé inteligence. Procesory mají dedikovaná jádra pro výpočty s maticemi (MMA), které dokážou trénovací doby znatelně zkrátit. Následně vytrénovaný model je dostupný pod ONNX (Open Neural Network Exchange) a podporuje nejpoužívanější frameworky pro umělou inteligenci jako je PyTorch nebo TensorFlow, které lze využívat bez přepisování kódu při migraci z jiného systému.
ARM Ampere Altra (Max)
Nová serverová řada procesorů založených na architektuře ARM nese řadový název Altra. Pro naše porovnání jsme si vybrali model Altra Max M128-30, který má v názvu zaklíčované jedny ze svých klíčových vlastností – 128 jader s architekturou 7nm Neoverse N1 s frekvencí až 3 GHz.
Vysoký výkon i efektivita zároveň
Procesory Altra Max si zachovávají poměrně nízkou spotřebu oproti ostatním porovnávaným procesorům, a to přibližně 180 wattů. Pokud si tento údaj spojíme s tím, že ARMový procesor jeden z těch s nejvíce jádry při relativně vysoké frekvenci, a to vše za cenu necelých 6000 USD, rozhodně dostaneme vítěze v hrubém poměru cena / výkon i výkon / spotřeba.
Vysokokapacitní Cache pro každé jádro
Každé jádro procesoru M128-80 má svoji vlasní dedikovanou 64KB L1-D cache a 1MB L2 cache. Tím se zamezí jakýmkoliv konfliktům o instrukce či primitivní data mezi jednotlivými jádry a paralelizace aplikací se nejen mnohonásobně urychlí, ale také usnadní její nasazení či vývoj.
Cloud-native procesor
Ampere Altra M128-30 byl stavěný s tím, že bude převážně nasazen jako cloud-coumputing procesor, případně i jako on-the-edge cloud computing.
Cloud Computing procesory jsou běžné serverové procesory přizpůsobeny řadou funkcí k tomu, aby byly využívány k počítání v cloudu a pracování s cloudovými aplikacemi. Mnoho firem vidí budoucnost aplikací a služeb v cloudech, tedy že veškerý obsah a data budou přístupné odkudkoliv z internetu (samozřejmě s řízeným přístupem) a tím se zjednoduší např. distribuce, usnadní se přístup k trénovaným AI modelům a podobně. Proto má Altra Max vysoký počet vysokorychlostních PCI linek pro síťové propoje a první základní desky mají např. OCI (Open Compute Interface) pro fabric propoje či jiné vysokorychlostní propojení.
NVIDIA Grace CPU
Jednou z HPC novinek pro rok 2023 mají být speciální čipové sady NVIDIA Grace, kdy se jedná o kompletní výpočetní jednotky na jediné systémové desce. Ovšem očekáváme, že do produkce půjdou i systémy s pouze jedním SoC modulem a my tak budeme mít dalšího soupeře pro porovnání.
ARM Neoverse V2 jádra
Jak jsme si již zmínily u Altry Max, nová ARM architektura Neoverse s 5nm výrobním procesem od TSMC (TSMC 4N) je schopná vytvořit čipy s vysokým počtem jader na co nejmenší plochu, jako je tomu u 128 jádrové Altry M128-30.
Čipy Neoverse V jsou novou arm skupinou, která cílí převážně na co největší výkon na čip. Proto jejich hlavní využití primárně v HPC řešeních a podobých výpočetních clusterech, které se využívají opět např. pro trénování sítí pro umělou inteligenci. Zároveň pořád pracujeme s ARM architekturou, takže sestavit technické řešení s co největší výpočetní hustotou nebude zdaleka problém díky efektivnímu chlazení a nižší spotřebě.
Speciální instrukční sady pro HPC a strojové učení
Neoverse V2 jádra mají novou speciální instrukční sadu int8 pro aritmetické operace s maticemi. Tím by se měl značně zvýšit výkon při trénování neuronových sítí, v některých oblastech dokonce až 4x. Dále například sada BFloat16 umožňuje efektivnější pracování s floating point čísly a operacemi, sada SVE zase usnadňuje práci s vektory a urychluje jejich výpočty téměř 2x.
Srovnání výkonu procesorů
Ačkoliv je každá z architektur v něčem jiná a je poměrně těžké sehnat pro všechny několik jednotných testů, zde je sourn benchmarků všech čtyř procesorů a jejich výkonu v daném testu.
(některé informace chybí buďto z důvodu nekompatibility testu nebo neexistujících výsledků, případně budou doplněny, až budou informace dostupné)
* Uvedené informace jsou orientační a budou doplněny, až budou ověřené nebo dostupné.
Platforma | Intel Xeon | AMD EPYC | IBM POWER | ARM | NVIDIA |
Model procesoru | Xeon Max 8490H | EPYC 9754 | Power10 (S1080 system) | Ampere Altra M128-30 | Grace |
# jader | 60 | 128 | 45 | 128 | 72 |
Base frekvence | 3.3 GHz | 3.1 GHz | 4.0 GHz | 3.0 GHz | TB/A |
DP FLOPs / takt | 5,614 TFLOPs | 6,100 TFLOPs * | 1,9 TFLOPs | 953.6 GFLOPs | TB/A |
Linpack RPeak / CPU* | 6 336 GFLOPs | 12,697 GFLOPs | 5760 GFLOPs | 12 288 GFLOPs | 7100 GFLOPs |
Linpack Rmax dual-socket server | 10 137 GFLOPs | 20,315 GFLOPs * | 9216 GFLOPs | 19 660 GFLOPs | N/A |
Memory bandwith (on-paper) | 650 GB/s * | 680 GB/s | 409 GB/s | 160 GB/s | 3,2 TB/s |
SPECrate2017_int_base | 1010 | 2290 | 1700 (per-system) | 359 (est.) | 740* |
SPECrate2017_fp_base | 1020 | 2110 | TB/A | TB/A | TB/A |
Energetická efektivita procesorů
U procesorů je užitečné také uvádět poměr např. cena/výkon, nebo spotřeba/výkon, jelikož toto mohlou být klíčové vlastnosti pro zákazníka, podle kterých si může vybrat architekturu pro svůj projekt. U HPC řešení to je více než klíčová vlastnost, jelikož v poslední době ceny energií letí prudce nahoru a je mnohem zodpovědnější provozovat řešení, které na svůj výkon je úspornější než stejně výkonná konkurence. Samozřejmě preference mohou být ovlivněny také jednotlivými funkcemi či cílené použití aplikace a technického řešení.
Procesor | Intel Xeon 8490H | AMD EPYC 9654 | IBM Power10 | Ampere Altra Max M128-30 | NVIDIA Grace CPU |
Výkon (Linpack RPeak) | 5614 GFLOPs | 6100 GFLOPs* | 1900 GFLOPs | 12288 GFLOPs | 7100 GFLOPs |
Spotřeba | 350 W | 400 W | 190 W | 170 W | 500 W |
GFLOP / W | 16,04 GFLOP / W | 15,25 GFLOP / W | 10 GFLOP / W | 72,2 GFLOP / W | 14,2 GFLOP / W |
Poměr cena / výkon
Procesor | Intel Xeon 8490H | AMD EPYC 9654 | IBM Power10 | Ampere Altra Max M128-30 | NVIDIA Grace CPU |
Výkon | 5614 GFLOP | 5376 GFLOP | 1900 GFLOP | 980 GFLOP | 7100 GFLOPs |
Cena | 12 980 USD | 11 805 USD | 35 000 USD | 5 800 USD | – |
GFLOP / USD | 0,4 GFLOP / USD | 0,86 GFLOP / USD | 0,05 GFLOP / USD | 0,16 GFLOP / USD | – |
Poznámky a zdroje dat
Benchmarky procesorů a specifikace:
Intel Xeon Max
https://hothardware.com/reviews/hands-on-with-sapphire-rapids-intel-4th-gen-xeon
AMD EPYC 9654
https://browser.geekbench.com/v5/cpu/18692940
https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/14
https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/5
https://www.hpcwire.com/2022/11/10/amds-4th-gen-epyc-genoa-96-5nm-cores-across-12-compute-chiplets/
IBM Power10
https://mcomputers.cz/en/ibm-power10/
https://www.servethehome.com/ibm-power10-searching-for-the-holy-grail-of-compute/
https://www.nextplatform.com/2022/07/12/can-ibm-get-back-into-hpc-with-power10/
https://www.linleygroup.com/newsletters/newsletter_detail.php?num=6200&year=2020&tag=3
https://www.ibm.com/downloads/cas/K90RQOW8
ARM Ampere
https://www.oracle.com/cz/cloud/compute/arm/
NVIDIA Grace
https://resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper
https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/