Masarykova univerzita provozuje nejpokročilejší systém pro výpočty AI
29. 5. 2023
29. 5. 2023
Centrum CERIT-SC na Masarykově univerzitě a jejich nově instalovaný systém NVIDIA DGX H100 otevírají dveře k úzké spolupráci s vědci z celého regionu prostřednictvím e-INFRA CZ. Tato prestižní síť sdružuje přední výzkumná centra a instituce z České republiky, která se zaměřují na pokročilé výpočetní technologie a výzkum v oblasti umělé inteligence. V rámci projektu e-INFRA CZ jsme byli zapojeni již předchozími dodávkami infrastruktury, více zde.
Centrum CERIT-SC je součástí národní e-infrastruktury, kterou představuje složitý systém vzájemně propojených síťových, výpočetních a úložných kapacit a souvisejících služeb pro výzkumnou komunitu České republiky. Svým zaměřením a nabídkou služeb doplňuje CERIT-SC další dvě složky národní e-infrastruktury – sdružení CESNET a superpočítačové centrum IT4Innovations.
Vědci připojení k e-INFRA CZ budou mít přístup ke zdrojům NVIDIA DGX H100 na Masarykově univerzitě a budou moci využít její výpočetní kapacity pro své projekty. Tato spolupráce poskytne prostředí pro inovativní výzkum a vývoj v oblasti umělé inteligence a urychlí pokrok v oblastech jako strojové učení, analýza velkých dat a vývoj AI aplikací.
e-INFRA CZ je unikátní e-infrastruktura pro výzkum a vývoj v ČR, která představuje transparentní prostředí poskytující komplexní kapacity a zdroje pro přenos, ukládání a zpracování vědeckých dat všem subjektům zabývajícím se výzkumem a vývojem bez ohledu na to, v jakém odvětví je provádí. Vytváří tak komunikační, informační, úložnou a výpočetní základnu pro výzkum a vývoj na národní i mezinárodní úrovni a poskytuje rozsáhlé ucelené portfolio služeb v oblasti ICT, bez nichž moderní výzkum a vývoj nemůže být realizován.
✓ Trénování velkých modelů díky velké paměti karet
✓ Rychlejší zpracování velkých datasetů
✓ Možnost současně pracovat na více projektech
✓ Analýza mluveného slova
✓ 3D rekonstrukce obrazu
✓ odhalování neurodegenerativních onemocnění
✓ TensorFlow / Keras
✓ PyTorch / PyTorch Lighting
✓ CUDA, cuDNN
H100 80GB SXM5
GPU jader
GPU paměti
8x NVIDIA H100 80 GB
Dual 56-core 4th Gen Intel Xeon CPU
32x 64 GB DDR5
8x single-port ConnectX-7 VPI 400 Gb/s InfiniBand / 200Gb/s Ethernet
2x dual-port ConnectX-7 VPI 400 Gb/s InfiniBand / 200Gb/s Ethernet
2x 1,92 TB NVMe M.2
8x 3,84 TB NVMe U.2
10 Gb/s onboard NIC (RJ45)
50 GbE optional NIC
RAM paměti
NVMe pro OS
NVMe pro data
Systémy NVIDIA DGX nejsou jen špičkovým hardwarem, přicházejí i s inovativními vylepšeními pro snadnější správu infrastruktury a implementaci AI. Jsou vybaveny vyladěným prostředím Dockeru a operačním systémem DGX OS a kromě toho také nově nabízejí nástroj NVIDIA Base Command, který umožňuje efektivní správu celé infrastruktury. Tím se zjednodušuje nasazování a implementace AI aplikací pro výzkumné a vývojové týmy.
Dále je součástí systému i softwarový stack NVIDIA AI Enterprise (NVAIE), který poskytuje kompletní sadu nástrojů pro vývoj a optimalizaci AI aplikací. Tato kombinace technologií usnadňuje a urychluje proces vývoje a nasazení AI řešení v rámci celé infrastruktury.
Parametr | NVIDIA DGX H100 640 GB |
---|---|
GPUs | 8× NVIDIA H100 SXM5 80 GB |
GPU memory | 640 GB |
CPU | Dual Intel Xeon Platinum 8480C CPU, (112 jader) 2.00 GHz (Base), 3.80 GHz (Max Boost) |
Výkon (FP8 tensor operace) | 32 PetaFLOPS (FP8) |
# CUDA jader | 135 168 |
# Tensor jader | 4 224 |
Multi-instantce GPU | 56 instancí |
RAM | 2 TB |
HDD | OS: 2× 1.92 TB NVMe data: 30 TB (8× 3.84 TB) NVMe |
Network | 8x single-port ConnectX-7 VPI 400 Gb/s InfiniBand/ 200Gb/s Ethernet 2x dual-port ConnectX-7 VPI 400 Gb/s InfiniBand/ 200Gb/s Ethernet |
Max. spotřeba | ~10,2 kW max |
Provedení | rack, 8U |
Technická specifikace | Datasheet |
NVIDIA GPU Cloud (NGC) představuje katalog Docker obrazů nejpoužívanějších prostředí pro vývoj machine learning a deep learning aplikací, HPC aplikací nebo vizualizaci akcelerovanou NVIDIA GPU kartami. Nasazení těchto aplikací je pak otázkou zkopírování odkazu na příslušný Docker obraz, jeho spuštění na DGX systému a stažení a spuštění v Docker kontejneru.
Jednotlivá vývojová prostředí — verze všech obsažených knihoven a frameworků, nastavení parametrů prostředí — jsou aktualizovaná a optimalizovaná NVIDIÍ pro nasazení na DGX systémech. https://ngc.nvidia.com/
Čím se nejvíce odlišují DGX systémy od bare-metal řešení je softwarová výbava. Všechny shodně nabízejí již předinstalovaná a především výkonově vyladěná prostředí pro strojové učení (např. Caffe, resp. Caffe 2, Theano, TensorFlow, Torch nebo MXNet) nebo intuitivní prostředí pro datové analytiky (NVIDIA Digits). To vše elegantně zabalené v Docker kontejnerech. Tyto neustále aktualizované kontejnery lze stáhnout na stránkách NVIDIA GPU Cloud (NGC).
Takto vyladěné prostředí poskytuje dle NVIDIE o 30% vyšší výkon pro aplikace v oblasti učení strojů proti aplikacím nasazeným jenom čistě na NVIDIA hardwaru. Hlavní výhodou předinstalovaného prostředí je ale rychlost nasazení, které se pohybuje v jednotkách hodin.
Silnou stránkou nabízeného řešení NVIDIA je také podpora celého systému. Rychlá hardwarová podpora (v případě selhání některé z komponent) je samozřejmostí.
Zásadní je softwarová podpora pro celé prostředí pro případ, že něco nefunguje tak, jak má. Zákazník má k dispozici stovky vývojářů připravených pomoci. Podpora je součástí nákupu všech systémů NVIDIA DGX. Je k dispozici na 3 – 5 let a po skončení této doby je možné ji dále prodloužit.
Pro otestování výkonnosti a především rychlosti nasazení ML a AI aplikací máme k dispozici nejenom systémy NVIDIA DGX Station A100 a v rámci NVIDIA Tesla Test Drive programu také akcelerátory NVIDIA H100, A100, A30 a další, ale i demo licence pro virtualizaci GPU (vGPU) a softwarové prostředí pro jednoduché nasazení AI aplikací – NVIDIA AI Enterprise (NVAIE). V případě Vašeho zájmu o testování prosím vyplňte tento formulář.