Hardware
Pojďme se na NVIDIA DGX stroje podívat podrobněji, nejprve z pohledu hardware.
DGX H100 | DGX B200 | DGX B100 | |
---|---|---|---|
GPU | 8× NVIDIA H100 80GB | 8x NVIDIA B200 | 8x NVIDIA B100 |
Výkon (tensor operace) | 32 petaFLOPS (FP8) | 72 petaFLOPS | 56 petaFLOPS |
Celková GPU paměť | 640 GB HBM3 | až 1536 GB HBM3e | až 1536 GB HBM3e |
CPU | 2x 56-core 4th Gen Intel Xeon Scalable CPU | až 2x Intel Xeon Platinum 8570 2.1 GHz (56 jader) | až 2x Intel Xeon Platinum 8570 2.1 GHz (56 jader) |
Počet CUDA jader | 135 168 | TBA | TBA |
Počet Tensor jader | 4 224 (4. generace) | TBA | TbA |
Multi-instance GPU | 56 instancí | 56 instancí | 56 instancí |
RAM | 2 TB | až 4 TB | až 4 TB |
HDD | OS: 2x 1.9TB NVMe M.2 DATA: 8x 3.84TB NVMe U.2 | OS: 2x 1.9TB NVMe M.2 DATA: 8x 3.84TB NVMe U.2 | OS: 2x 1.9TB NVMe M.2 DATA: 8x 3.84TB NVMe U.2 |
Propojení GPU karet | 4x NVIDIA NVSwitch (7.2TB/s) 18x NVIDIA NVLink/GPU (900GB/s) | 36x NVLink / GPU (1.8TB/s) | 36x NVLink / GPU (1.8TB/s) |
Network | 8x Single-port ConnectX-7 VPI (400Gb/s InfiniBand / 200 Gb/s Ethernet) 2x Dual-port ConnectX-7 VPI (400Gb/s InfiniBand / 200 Gb/s Ethernet) | 4x OSFP pro 8x single-port NVIDIA ConnectX-7 VPI (400Gb/s InfiniBand/Ethernet) 2x dual-port QSFP112 NVIDIA BlueField-3 DPU (400Gb/s InfiniBand/Ethernet) | 4x OSFP pro 8x single-port NVIDIA ConnectX-7 VPI (400Gb/s InfiniBand/Ethernet) 2x dual-port QSFP112 NVIDIA BlueField-3 DPU (400Gb/s InfiniBand/Ethernet) |
Maximální příkon | ~10.2kW max | ~ 14.3kW max | ~ 12.2 kW max |
Provedení | rack, 8U | rack, 10U | rack, 10U |
Všechny NVIDIA DGX systémy jsou vybaveny těmi nejnovějšími a nejrychlejšími akcelerátory. Standardní konfigurace počítá s osmi kartami, což umožňuje díky propojení NVLink s rychlostí až 8TB/s z dané architektury vytěžit maximum. Všechny GP GPU od společnosti NVIDIA se pyšní specializovanými Tensor jádry, která efektivně urychlují výpočty pro trénování modelů strojového učení a umělé inteligence. Rychlému a efektivnímu trénování také pomáhá velká a rychlá grafická paměť, která může být v případě DGX B200 až 1536 GB HBM3e.
Jak efektivně využít Multi-GPU systémy?
To je jedna z nejčastějších otázek, kterou nám naši zákazníci pokládají. Několik technik optimalizace algoritmů na Multi-GPU systémech je popsáno ve webináři na Multi-GPU téma. Další možnosti je navšívit workshop Fundamentals of Deep Learning for Multi-GPUs, který pořádáme společně s NVIDIA Deep Learning Institutem (DLI).
Softwarová výbava
Co je ale mnohem zajímavější, je již zmiňovaná softwarová výbava nabízených NVIDIA strojů. Všechny shodně nabízí předinstalovaná a především výkonově vyladěná prostředí pro strojové učení (např. Caffe, resp. Caffe 2, Theano, TensorFlow, Torch, nebo MXNet) nebo intuitivní prostředí pro datové analytiky (NVIDIA Digits). To vše elegantně zabalené v Docker kontejnerech. Takto vyladěné prostředí poskytuje podle NVIDIE o 30% vyšší výkon pro aplikace v oblasti učení strojů proti aplikacím nasazených jenom čistě na NVIDIA hardwaru. Hlavní výhodou předinstalovaného prostředí je rychlost nasazení, které se pohybuje v jednotkách hodin. Základní image DGX systémů obsahuje operační systém Ubuntu, NVIDIA GPU ovladače, nebo Docker prostředí pro běh kontejnerů, které lze jednouše stáhnout z NVIDIA GPU Cloudu (NGC). Na základě požadavků z HPC světa podporuje NVIDIA nově i běh těchto kontejnerů v prostředí Singularity.
NVIDIA GPU Cloud
NVIDIA GPU Cloud (NGC) představuje katalog Docker obrazů nejpoužívanějších prostředí pro vývoj machine learning a deep learning aplikací, HPC aplikací nebo vizualizaci akcelerovanou NVIDIA GPU kartami. Nasazení těchto aplikací je pak otázkou zkopírování odkazu na příslušný Docker obraz, jeho spuštění na DGX systému a stažení a spuštění v Docker kontejneru. Jednotlivá vývojová prostředí — verze všech obsažených knihoven a frameworků, nastavení parametrů prostředí — jsou aktualizovaná a optimalizovaná NVIDIÍ pro nasazení na DGX systémech. https://ngc.nvidia.com/
Podpora
Silnou stránkou nabízeného řešení NVIDIA je podpora celého systému. Hardwarová podpora (v případě selhání některé z komponent) je samozřejmostí. Zásadní je softwarová podpora pro celé prostředí pro případ, že něco nefunguje tak, jak má. Zákazník má k dispozici stovky vývojářů připravených pomoci. Podpora je součástí nákupu systémů NVIDIA DGX. Je k dispozici na 1, 3 nebo 5 let a po skončení této doby je možné ji dále prodloužit.
NVIDIA podpora zahrnuje tyto položky:
- hardwarová podpora s výměnou vadného dílu do jednoho dne od nahlášení
- softwarová podpora, která pokrývá DGX OS image i celý AI software stack včetně AI frameworků dostupných z NGC
- přístup na Enterprise Support Portal
- telefonická podpora 24×7
- přístup do Nvidia Knowledgebase
- přístup do NVIDIA GPU Cloud (NGC) portálu
- NVIDIA Cloud Management
- DGX Software upgrady na vyšší verze
- DGX Software updaty
- DGX Firmware updaty
Primární podporu po telefonu poskytuje v češtině společnost M Computers.
Díky kombinaci vyladěného hardwaru, široké softwarové výbavy a kvalitní NVIDIA podpory dosahují NVIDIA DGX systémy vyrazně vyššího výkonu při datové analýze a zrychlení učící fáze machine learning aplikací.
Rozdíl mezi odladěným řešením DGX systémů pro rychlé a výkonné nasazení strojového učení v praxi a variantou poskládejte si vše sami (DIY — Do It Yourself) je patrný z následujícího videa:
Video sestřih z instalace AI superpočítače NVIDIA DGX-2 na IT4Innovations národním superpočítačovém centru VŠB Ostrava dodaného společností M Computers.
Referenční architektury
NVIDIA DGX systémy představují obrovský výpočetní výkon. Při návrhu architektury je potřeba brát v úvahu jejich zapojení do celkové IT infrastruktury a její vyladění pro dosažení maximálního výkonu. NVIDIA představila referenční architekturu DGX systémů NVIDIA DGX POD Reference Architecture včetně návrhu propojovacích sítí (networking) i diskových polí (storage). Jednotliví výrobci diskových polí pak představili své referenční návrhy, ve kterých nabízí celkové řešení infrastruktury pro běh ML a AI aplikací. Zajímavou technologií pro urychlení přenosu data mezi GPU a datovým úložištěm může přestavovat technogie GPUDirect storage.
NetAPP ONTAP AI referenční architektura
NVIDIA nabízí na DGX systémy speciální cenové akce a programy pro oblasti vzdělávání (EDU) nebo start-up společností. Díky mezinárodní spolupráci mezi NVIDIA a IBM Global Financing je na modely DGX k dispozici zvýhodněné financování formou operativního leasingu.
Deep Learning Institute (DLI) nabízí on-line i hands-on školení pro vývojáře, datové analytiky nebo vědecké pracovníky, kteří řeší náročné úlohy umělé inteligence nebo akcelerovaných výpočtů.
Testování
Pro otestování výkonnosti a především rychlosti nasazení ML a AI aplikací máme k dispozici systém NVIDIA DGX Station a v rámci NVIDIA Tesla Test Drive programu také 2× NVIDIA Tesla V100 a NVIDIA Tesla T4. V případě Vašeho zájmu o testování prosím vyplňte tento formulář.