Serverové architektury pro HPC 2023
14.1.2023
Porovnání architektur
Stejně jako v našem předchozím porovnání serverových architektur v roce 2020 jsme pro srovnávání vybrali 5 aktuálně nejpopulárnějších procesorových architektur a od každé z nich model s nejvyššími parametry. U každého modelu jsou uvedeny klíčové parametry a souhrn jeho nejpřínosnějších funkcí využívaných v oblastech HPC (High Performance Computing) a AI (Artificial Inteligence).
Na závěr jsou připravena porovnání v oblasti výpočetního výkonu, spotřeby, efektivity a ekonomické výhodnosti.
Ne všechny informace jsou dostupné/ověřené. Tyto informace v textu označujeme hvězdičkou * s uvedením zdrojů na konci článku.
Superpočítač Karolina, nejvýkonnější v ČR | IT4I VŠB Ostrava
Detailní popis jednotlivých architektur
Technické parametry
Platforma | Intel Xeon | AMD EPYC | IBM POWER | ARM | NVIDIA |
---|---|---|---|---|---|
Název procesoru | Intel Xeon 8490H | AMD EPYC 9654 | IBM POWER10 EPGD/EPGK | Ampere Altra Max M128-30 | NVIDIA Grace CPU |
Generace | Intel Xeon 4th | AMD Epyc 4th | IBM Power 10th | Arm Neoverse V1 v8.1/v8.2+ | Arm Neoverse V2 v9.0-A |
max. # CPU / server | 8 | 2 | 2 | 2 | 2 |
max. # jader / CPU | 60 | 96 | 24 | 128 | 72 |
# threadů na jádro | 2 | 2 | 8 | 1 | 2 |
# threadů / CPU | 120 | 192 | 192 | 128 | 144 |
základní frekvence | 1,9 GHz | 2,4 GHz | 2,7 GHz | 2,6 GHz | TB/A |
Turbo frekvence | 3,5 GHz | 3,7 GHz | 3,5 GHz | 3 GHz | TB/A |
# paměť. kanálů | 8 | 12 | 16 | 8 | TB/A |
velikost L3 cache | 112,5 MB | 384 MB | 120 MB | — | 117 MB |
max. rychlost pamětí | DDR5 – 4800 | DDR5 – 4800 | DDR5 – 4800 | DDR4 – 3200 | LPDDR5 – 4800 |
max. RAM / CPU | 6 TB | 6 TB | 64 TB | 4 TB | 512 GB |
verze PCIe / CPU | PCIe gen 5 | PCIe gen 5 | PCIe gen 5 | PCIe gen 4 | PCIe gen 5 |
# PCI linek / CPU | 80 | 128 | 32 | 128 | 64 |
TDP procesoru | 350 W | 360 W | 190 W | 250 W | TB/A |
výrobní proces | Intel 7 | 7 nm | 6nm / 5nm | 7 nm Neoverse | 7nm Neoverse |
Počet tranzistorů | TB/A | 78,8 miliard | 18 miliard | 30 miliard ? | 16 miliard ? |
továrna na výrobu | Intel | TSCM | Samsung | TSMC | TSMC |
listová cena | 17 000 USD | 11 805 USD | 35 000 USD | 5 800 USD | TB/A |
datum oznámení | Q1 2023 | Q4 2022 | Q2 2020 | Q2 2020 | Q4 2023* |
specifikace | více informací | více informací | více informací | více informací |
Údaje označené * jsou neoficiální/očekávané údaje podle zdrojů z internetu.
AMD EPYC Genoa
Nová generace procesorů AMD EPYC přináší hodně nového. Pro naše porovnání jsme vybrali konkrétně model EPYC 9654, který nabízí 96 x86 jader, které ho ještě s dalšímí funkcemi paují na nejvýkonnější x86 serverový procesor vůbec. S variabilní spotřebou si může říct až o 400 wattů a dosahuje taktů až 3.7 GHz na jádro, resp. 3.55 GHz na všechny jádra.
Z pohledu paměti má 384 MB L3 Cache, podporuje paměti DDR5 o frekvenci 4800 MHz s maximální kapacitou 6 TB na procesor.
ZEN 4 jádra
Nová architektura serverových procesorů AMD EPYC nesoucí název „Zen 4“ přináší mnoho nových či vylepšených funkcí; nově přináší do procesorů rozšířenou instrukční sadu AVX-512, kterou dobře známe z Intelových procesorů. Ta umožňuje počítat s až 256 bitovými vektory a Double Precision floating point operacemi. AMD zmiňuje přínos pro sektory Natural Language Processingu (zpracování mluveného jazyka) nebo klasifikaci objektů a obrázků, kde má v průměru přinést až čtyřnásobné zrychlení.
Multi Socket řešení
Procesory Genoa umožňují i dvoučipové nasazení, kdy procesory jsou mezi sebou propojovány AMD Infinity Fabric technologií, čímž vytváří propoje s vysokým datovým tokem a rozšiřují i počet PCI-e gen. 5 linek na 160 (zbylých 96 je využito jako Fabric propoj).
Superpočítače postavené na AMD EPYC
Frontier – aktuálně první Exa-scale superpočítač na světě. Současně drží první místo v žebříčku Top500.
Jeho papírový výkon má dosahovat až 1.6 ExaFLOPs, v praxi se potvrdilo 1.1 ExaFLOPs.
Jeho specifikace jsou:
9,472 purpose-built procesorů AMD EPYC 7A53, 64 jader, tedy celkově má systém přes 600,000 jader, 37,888 AMD Instinct MI250X karet a 47 PB RAM (5 TB na každý node, který se skládá z jednoho procesoru, paměti a 4 akcelerátorů). Superpočítač byl dostavěn v květnu 2022, celkově stál okolo 600 mil. USD.
Další chystaný superpočítač je El Capitan, který má běžet již na nové architektuře Zen 4, tedy procesorech AMD EPYC Genoa.
Intel Xeon Sapphire Rapids
Procesory Intel Xeon Max jsou prvními x86 čipy na trhu, které přinášejí integrovanou High Bandwidth Paměť (HBM). Intel v tomto směru vidí možné zrychlení výpočtů a dalších běžných operací v HPC sféře. Bohužel jako jediný je stále vyráběn zastaralým Intel 7 (10nm)* procesem, takže nemůže dosáhnout takového potenciálu, jako čipy s nižším výrobním procesem, jako např. 7nm, který je v dnešní době víceméně standardem.
Intel Xeon Max nabízí až 60* výkonných jader složených ze čtyř čipů, které jsou propojeny technologií Intelmulti-die interconnect bridge (EMIB). Dále procesor obsahuje již zmíněných 64 GB HBM paměti, podporu pro PCI Express 5.0 a CXL1.1 I/O. To vše s maximální spotřebou 350 wattů*. Xeon Max procesory tak mají kapacitu přes 1GB HBM paměti na jedno jádro, což je velikost, do které lze uložit většinu běžných HPC instrukcí a tímto způsobem výpočtu a běhu aplikací lze dosáhnout až 4.8x lepšího výkonu oproti konkurenčním řešením pro HPC.
Procesory Intel Xeon
Procesory Intel Xeon jsou dlouhodobě leader serverového sektoru na trhu – posledních 5 let si držely podíl přes 75% a první místa v seznamech nasazení. Pro mnoho společností jsou jasnou volbou díky široké podpoře funkcí, bezpečnosti, slušného poměru cena/výkon a dobré spolehlivosti.
HBM2E Paměť
Jak je výše zmíněno, Intel Xeon Max procesory mají integrovanou HBM paměť přímo do procesoru, čímž mohou vytvořit mnoho výhod pro pracovní prostředí serverových či HPC aplikací.
HBM paměť je totiž možné nakonfigurovat do několika „seskupení“, kdy z každého z nich může těžit jiná aplikace.Paměť lze jednak využívat jako pseudo-L4 cache, čímž se mohou urychlit aplikace závislé na rychlé paměti. Dále ji můžeme jednoduše spojit s celkovou systémovou pamětí, přičemž při konstrukci aplikací stále můžeme využívat předností HBM a konkrétně na ně cílit. Poslední možný scénář může vypadat tak, že celkový systém nemá žádnou systémovou paměť RAM, ale využívá pouze tu integrovanou v procesoru, čímž má stále přístup k poměrně velké kapacitě s obrovskou rychlostí.
Vícesocketové zapojení
Stejně jako jeho předchůdci, procesory Intel Xeon Max umožňjí vícesocketové zapojení, a to až po osmi čipech na jeden systém. Tím můžeme dosáhnout obrovského výkonu pro HPC aplikace, enormní kapacity paměti ram (až 48TB!) a ve spojení například s akcelerátory Intel Xe DC GPU lze vytvořit jednak cenově ne příliš náročný, ale také spolehlivý, výkonný a úsporný HPC systém. A předpokládáme uvedení HPE Superdome Flex, který bude škálovat ještě lépe.
Nasazení v superpočítačích
Největším superpočítačem, který má být postavený na platformě Intel Xeon Sapphire Rapids je očekávaný superpočítač Aurora. Slíbeno má například přes 7 PB paměti RAM a 150 PB úložiště. Vše bude propojeno technologiemi od společnosti CRAY, kterou Intel koupil a provozoval pod jménem Intel Omni-Path, ale později ukončil její vývoj (momentálně je podpora poskytována společností Cornelis networks). Dodání bylo oznámeno již v roce 2015, ovšem k dnešnímu datu je superpočítač stále ve výstavbě.
Superpočítač ve výsledku má dosahovat výkonu 150 PetaFLOPs se spotřebou cca 13 MW.
IBM Power10
IBM Power 10 procesory jsou skvělým nástupcem Power procesorů minulé generace, jelikož pod stejnou spotřebou přináší až dvojnásobný výpočetní výkon. Díky své vlastní architektuře, která je postavena na RISCu dokážou pro speciálně navržené aplikace dodat ohromný výkon. Pro systémy byl tradičně využíván systém IBM i, ovšem nově byla podpora rozšířena i o některé enterprise distribuce Linuxu.
IBM Memory Inception
Tato technologie od IBM umožňuje procesoru Power10 komunikaci s paměťovým clusterem o velikost až 2PB; to je více než unikátní, jelikož většina systémů končí u 64TB, což je 32x méně. Paměťové propoje běží skrze nové rozhraní OMI (Open Memory Interface), které poskytuje vyšší datový tok a flexibulitu připojení. Momentálně se to může zdát jako obrovský přestřel, ale pro některé sítě umělé inteligence nebo strojového učení může být tato kapacita eventuelně více než využitelná. Více zde
Další technologie, Chipkill spolu s ECC zajišťuje integritu paměti a chrání proti jejímu poškození.
Kompletní redundance v 4U jednotce
IBM Power10 systémy mají zajištěnou redundanci všech krityckých součástek, jako například chlazení či zdroje elektrické energie. Na chladícím systému jde například provádět údržbu i za běhu systému. U napájení lze provozovat systém v plné míře i při výpadku dvou zdrojů. Dále mají paměti RAM a cahce aktivovanou službu AMM (Active Memory Mirroring), která konstantně zrcadlí potřebnou paměť pro to, aby při případném poškození dat za běhu systému, které nezvládne opravit ECC, nebyl chod systému narušen.
Trénování AI
Systémy postavené na procesorech Power10 jsou skvělou volbou pro trénování umělé inteligence (AI). Procesory mají dedikovaná jádra pro výpočty s maticemi (MMA), které dokážou trénovací doby násobně zkrátit. Následně vytrénovaný model je dostupný pod ONNX (Open Neural Network Exchange) a podporuje nejpoužívanější frameworky pro umělou inteligenci jako je PyTorch nebo TensorFlow, které lze využívat bez přepisování kódu při migraci z jiného systému.
ARM Ampere Altra (Max)
Nová serverová řada procesorů založených na architektuře ARM nese řadový název Altra. Pro naše porovnání jsme si vybrali model Altra Max M128-30, který má v názvu zaklíčované jedny ze svých klíčových vlastností – 128 jader s architekturou 7nm Neoverse N1 o frekvencí až 3.0 GHz.
Vysoká efektivita při vysokém výkonu
Procesory Altra Max si zachovávají poměrně nízkou spotřebu oproti ostatním porovnávaným procesorům, a to přibližně 180 wattů. Pokud si tento údaj spojíme s tím, že ARMový procesor má také nejvíce jader při relativně vysoké frekvenci, a to vše za cenu necelých 6000 USD, rozhodně dostaneme vítěze v hrubém poměru cena / výkon.
Vysokokapacitní Cache pro každé jádro
Každé jádro procesoru M128-80 má svoji vlasní dedikovanou 64KB L1-D cache a 1MB L2 cache. Tím se zamezí jakýmkoliv konfliktům o instrukce či primitivní data mezi jednotlivými jádry a paralelizace aplikací se nejen mnohonásobně urychlí, ale také usnadní její nasazení či vývoj.
Cloud-native procesor
Ampere Altra M128-30 byl stavěný s tím, že bude převážně nasazen jako cloud-coumputing procesor, případně i jako on-the-edge cloud computing.
Cloud Computing procesory jsou běžné serverové procesory přizpůsobeny řadou funkcí k tomu, aby byly využívány k počítání v cloudu a pracování s cloudovými aplikacemi. Mnoho firem vidí budoucnost aplikací a služeb v cloudech, tedy že veškerý obsah a data budou přístupné odkudkoliv z internetu (samozřejmě s řízeným přístupem) a tím se zjednoduší např. distribuce, usnadní se přístup k trénovaným AI modelům a podobně. Proto má Altra Max vysoký počet vysokorychlostních PCI linek pro síťové propoje a první základní desky mají např. OCI (Open Compute Interface) pro fabric propoje či jiné vysokorychlostní propojení.
NVIDIA Grace CPU
Jednou z HPC novinek pro rok 2023 mají být speciální čipové sady NVIDIA Grace, kdy se jedná o kompletní výpočetní jednotky na jediné systémové desce. Ovšem očekáváme, že procesory NVIDIA Grace půjde nasadit samostatně a budeme tak mít o jednoho soupeřícího v porovnání navíc.
ARM Neoverse V2 jádra
Jak jsme si již zmínily u Altry Max, nová ARM architektura Neoverse se 7nm výrobním procesem je schopná vytvořit čipy s vysokým počtem jader na co nejmenší plochu, jako je tomu u 128 jádrové Altry M128-30.
Čipy Neoverse V jsou novou arm skupinou, která cílí převážně na co největší výkon na čip. Proto jejich hlavní využití primárně v HPC řešeních a podobých výpočetních clusterech, které se využívají opět např. pro trénování sítí pro umělou inteligenci.
Speciální instrukční sady pro HPC a strojové učení
Neoverse V2 jádra mají novou speciální instrukční sadu int8 pro aritmetické operace s maticemi. Tím by se měl značně zvýšit výkon při trénování neuronových sítí, v některých oblastech dokonce až 4x. Dále například sada BFloat16 umožňuje efektivnější pracování s floating point čísly a operacemi, sada SVE zase usnadňuje práci s vektory a urychluje jejich výpočty téměř 2x.
Srovnání výkonu procesorů
Ačkoliv je každá z architektur v něčem jiná a je poměrně těžké sehnat pro všechny několik jednotných testů, zde je sourn benchmarků všech čtyř procesorů a jejich výkonu v daném testu.
(některé informace chybí buďto z důvodu nekompatibility testu nebo neexistujících výsledků, případně budou doplněny, až budou informace dostupné)
Platforma | Intel Xeon | AMD EPYC | IBM POWER | ARM | NVIDIA |
Model procesoru | Xeon Max 8490H | EPYC 9654 | Power10 | Ampere Altra M128-30 | Grace |
# jader, frekvence | 60 | 96 | 45 | 128, 3.0 GHz | 72, TB/A |
3.3 GHz | 3.35 GHz | 4.0 GHz | |||
DP FLOPs / takt | 5,614 TFLOPs | 10,214 TFLOPs | 1,9 TFLOPs | 953.6 GFLOPs | TB/A |
Linpack RPeak / CPU | TB/A | TB/A | TB/A | TB/A | TB/A |
Linpack Rmax dual-socket server | TB/A | TB/A | TB/A | TB/A | TB/A |
PassMark | TB/A | TB/A | TB/A | TB/A | TB/A |
Geekbench (single core) | 846 | TB/A | |||
Geekbench (multi core) | 68 024 | TB/A | |||
Memory bandwith (on-paper) | TB/A | 680 GB/s | 409 GB/s | 160 GB/s | 3,2 TB/s |
STREAM | TB/A | TB/A | |||
HPCG | TB/A | 45,22 | TB/A | ||
SPECrate2017_int_base | 802 (est.) | 1790 | 359 (est.) | TB/A | |
SPECrate2017_fp_base | 679 (est.) | 1480 | TB/A | ||
ANSYS Fluent | TB/A | TB/A |
Energetická efektivita procesorů
U procesorů je užitečné také uvádět poměr např. cena/výkon, nebo spotřeba/výkon, jelikož toto mohlou být klíčové vlastnosti pro zákazníka, podle kterých si může vybrat architekturu pro svůj projekt. U HPC řešení to je více než klíčová vlastnost, jelikož v poslední době ceny energií letí prudce nahoru a je mnohem zodpovědnější provozovat řešení, které na svůj výkon je úspornější než stejně výkonná konkurence. Samozřejmě preference mohou být ovlivněny také jednotlivými funkcemi či cílené použití aplikace a technického řešení.
Procesor | Intel Xeon 8490H | AMD EPYC 9654 | IBM Power10 | Ampere Altra Max M128-30 | NVIDIA Grace CPU |
Výkon | 5614 GFLOP | 5376 GFLOP | 1900 GFLOP | – | – |
Spotřeba | 350 W | 400 W | 190 W | 170 W | – |
GFLOP / W | 16,04 GFLOP / W | 13,44 GFLOP / W | 10 GFLOP / W | 5,6 GFLOP / W | – |
Poměr cena / výkon
Procesor | Intel Xeon 8490H | AMD EPYC 9654 | IBM Power10 | Ampere Altra Max M128-30 | NVIDIA Grace CPU |
Výkon | 5614 GFLOP | 5376 GFLOP | 1900 GFLOP | 980 GFLOP | – |
Cena | 12 980 USD | 11 805 USD | 35 000 USD | 5 800 USD | – |
GFLOP / USD | 0,4 GFLOP / USD | 0,86 GFLOP / USD | 0,05 GFLOP / USD | 0,16 GFLOP / USD | – |
Poznámky a zdroje dat
Benchmarky procesorů a specifikace:
Intel Xeon Max
https://hothardware.com/reviews/hands-on-with-sapphire-rapids-intel-4th-gen-xeon
AMD EPYC 9654
https://browser.geekbench.com/v5/cpu/18692940
https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/14
https://www.phoronix.com/review/amd-epyc-9654-9554-benchmarks/5
https://www.hpcwire.com/2022/11/10/amds-4th-gen-epyc-genoa-96-5nm-cores-across-12-compute-chiplets/
IBM Power10
https://mcomputers.cz/en/ibm-power10/
https://www.servethehome.com/ibm-power10-searching-for-the-holy-grail-of-compute/
https://www.nextplatform.com/2022/07/12/can-ibm-get-back-into-hpc-with-power10/
https://www.linleygroup.com/newsletters/newsletter_detail.php?num=6200&year=2020&tag=3
ARM Ampere
https://www.oracle.com/cz/cloud/compute/arm/
NVIDIA Grace
https://resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper
https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/