
Hardware
Pojďme se na NVIDIA DGX stroje podívat podrobněji, nejprve z pohledu hardware.
DGX Station A100 | DGX A100 | DGX H100 | |
---|---|---|---|
GPU | 4× NVIDIA A100 80GB | 8× NVIDIA A100 40GB/80GB | 8× NVIDIA H100 80GB |
Výkon (tensor operace) | 2,5 PetaFLOPS | 5 PetaFLOPS | 32 petaFLOPS (FP8) |
Celková GPU paměť | 160/320 GB HBM2 | 320/640 GB HBM2 | 640 GB HBM3 |
CPU | AMD Rome 7742, 2.25 GHz (64 jader) | 2× AMD Rome 7742, 2.25 GHz (64 jader) | 2x 56-core 4th Gen Intel Xeon Scalable CPU |
Počet CUDA jader | 27 648 | 55 296 | 135 168 |
Počet Tensor jader | 1 728 (3. generace) | 3 456 (3. generace) | 4 224 (4. generace) |
Multi-instance GPU | 28 instancí | 56 instancí | 56 instancí |
RAM | 512 GB | 1 TB | 2 TB |
HDD | OS: 1x 1.92TB M.2 NVMe SSD, DATA: 1x 7,68TB U.2 NVMe SSD | OS: 2x 1.92TB M.2 NVMe SSD, DATA: 4x 3.84TB (15TB) U.2 NVMe SSD | OS: 2x 1.9TB NVMe M.2 DATA: 8x 3.84TB NVMe U.2 |
Propojení GPU karet | NVLink | 6x NVIDIA NVSwitch (4.8TB/s) 12x NVIDIA NVLink/GPU (600GB/s) | 4x NVIDIA NVSwitch (7.2TB/s) 18x NVIDIA NVLink/GPU (900GB/s) |
Network | 2× 10GbE | 8x Single-Port ConnectX-6 (200Gb/s HDR InfiniBand) 1x Dual-Port 200Gb/s Ethernet | 8x Single-port ConnectX-7 VPI (400Gb/s InfiniBand / 200 Gb/s Ethernet) 2x Dual-port ConnectX-7 VPI (400Gb/s InfiniBand / 200 Gb/s Ethernet) |
Maximální příkon | 1 500 W | 6,6 kW | ~10.2kW max |
Provedení | tower, vodní chlazení CPU a GPU | rack, 6U | rack, 8U |
Všechny NVIDIA DGX systémy jsou vybaveny nejnovějšími a zároveň nejrychlejšími akcelerátory současnosti. DGX Station A100 čtyřmi kartami NVIDIA A100 80 GB a DGX A100 dokonce osmi akcelerátory NVIDIA A100 40 GB nebo 80 GB! Mezi hlavní výhody NVIDIA karet patří specializovaná Tensor jádra pro AI aplikace a velká paměť (až 80 GB na každý akcelerátor), zabezpečená technologií ECC. Aby mohly akcelerátory mezi sebou rychle komunikovat, propojila je NVIDIA speciálním rozhraním s obrovskou datovou propustností — NVLink. NVLink dosahuje přenosové rychlosti až 600 GB/s. NVIDIA DGX A100 navíc nabízí super výkonný přepínač NVSwitch. Ten zajistí celkovou propustnost mezi osmii NVIDIA Ampere A100 kartami až 4,8 TB/s.
Jak efektivně využít Multi-GPU systémy?
To je jedna z nejčastějších otázek, kterou nám naši zákazníci pokládají. Několik technik optimalizace algoritmů na Multi-GPU systémech je popsáno ve webináři na Multi-GPU téma. Další možnosti je navšívit workshop Fundamentals of Deep Learning for Multi-GPUs, který pořádáme společně s NVIDIA Deep Learning Institutem (DLI).
Softwarová výbava
Co je ale mnohem zajímavější, je již zmiňovaná softwarová výbava nabízených NVIDIA strojů. Všechny shodně nabízí předinstalovaná a především výkonově vyladěná prostředí pro strojové učení (např. Caffe, resp. Caffe 2, Theano, TensorFlow, Torch, nebo MXNet) nebo intuitivní prostředí pro datové analytiky (NVIDIA Digits). To vše elegantně zabalené v Docker kontejnerech. Takto vyladěné prostředí poskytuje podle NVIDIE o 30% vyšší výkon pro aplikace v oblasti učení strojů proti aplikacím nasazených jenom čistě na NVIDIA hardwaru. Hlavní výhodou předinstalovaného prostředí je rychlost nasazení, které se pohybuje v jednotkách hodin. Základní image DGX systémů obsahuje operační systém Ubuntu, NVIDIA GPU ovladače, nebo Docker prostředí pro běh kontejnerů, které lze jednouše stáhnout z NVIDIA GPU Cloudu (NGC). Na základě požadavků z HPC světa podporuje NVIDIA nově i běh těchto kontejnerů v prostředí Singularity.

NVIDIA DGX systems SW stack
NVIDIA GPU Cloud
NVIDIA GPU Cloud (NGC) představuje katalog Docker obrazů nejpoužívanějších prostředí pro vývoj machine learning a deep learning aplikací, HPC aplikací nebo vizualizaci akcelerovanou NVIDIA GPU kartami. Nasazení těchto aplikací je pak otázkou zkopírování odkazu na příslušný Docker obraz, jeho spuštění na DGX systému a stažení a spuštění v Docker kontejneru. Jednotlivá vývojová prostředí — verze všech obsažených knihoven a frameworků, nastavení parametrů prostředí — jsou aktualizovaná a optimalizovaná NVIDIÍ pro nasazení na DGX systémech. https://ngc.nvidia.com/
Podpora
Silnou stránkou nabízeného řešení NVIDIA je podpora celého systému. Hardwarová podpora (v případě selhání některé z komponent) je samozřejmostí. Zásadní je softwarová podpora pro celé prostředí pro případ, že něco nefunguje tak, jak má. Zákazník má k dispozici stovky vývojářů připravených pomoci. Podpora je součástí nákupu systémů NVIDIA DGX. Je k dispozici na 1, 3 nebo 5 let a po skončení této doby je možné ji dále prodloužit.
NVIDIA podpora zahrnuje tyto položky:
- hardwarová podpora s výměnou vadného dílu do jednoho dne od nahlášení
- softwarová podpora, která pokrývá DGX OS image i celý AI software stack včetně AI frameworků dostupných z NGC
- přístup na Enterprise Support Portal
- telefonická podpora 24×7
- přístup do Nvidia Knowledgebase
- přístup do NVIDIA GPU Cloud (NGC) portálu
- NVIDIA Cloud Management
- DGX Software upgrady na vyšší verze
- DGX Software updaty
- DGX Firmware updaty
Primární podporu po telefonu poskytuje v češtině společnost M Computers.
Díky kombinaci vyladěného hardwaru, široké softwarové výbavy a kvalitní NVIDIA podpory dosahují NVIDIA DGX systémy vyrazně vyššího výkonu při datové analýze a zrychlení učící fáze machine learning aplikací.
Rozdíl mezi odladěným řešením DGX systémů pro rychlé a výkonné nasazení strojového učení v praxi a variantou poskládejte si vše sami (DIY — Do It Yourself) je patrný z následujícího videa:
Video sestřih z instalace AI superpočítače NVIDIA DGX-2 na IT4Innovations národním superpočítačovém centru VŠB Ostrava dodaného společností M Computers.
Referenční architektury
NVIDIA DGX systémy představují obrovský výpočetní výkon. Při návrhu architektury je potřeba brát v úvahu jejich zapojení do celkové IT infrastruktury a její vyladění pro dosažení maximálního výkonu. NVIDIA představila referenční architekturu DGX systémů NVIDIA DGX POD Reference Architecture včetně návrhu propojovacích sítí (networking) i diskových polí (storage). Jednotliví výrobci diskových polí pak představili své referenční návrhy, ve kterých nabízí celkové řešení infrastruktury pro běh ML a AI aplikací. Zajímavou technologií pro urychlení přenosu data mezi GPU a datovým úložištěm může přestavovat technogie GPUDirect storage.
NetAPP ONTAP AI referenční architektura
NVIDIA nabízí na DGX systémy speciální cenové akce a programy pro oblasti vzdělávání (EDU) nebo start-up společností. Díky mezinárodní spolupráci mezi NVIDIA a IBM Global Financing je na modely DGX k dispozici zvýhodněné financování formou operativního leasingu.
Deep Learning Institute (DLI) nabízí on-line i hands-on školení pro vývojáře, datové analytiky nebo vědecké pracovníky, kteří řeší náročné úlohy umělé inteligence nebo akcelerovaných výpočtů.
Testování
Pro otestování výkonnosti a především rychlosti nasazení ML a AI aplikací máme k dispozici systém NVIDIA DGX Station a v rámci NVIDIA Tesla Test Drive programu také 2× NVIDIA Tesla V100 a NVIDIA Tesla T4. V případě Vašeho zájmu o testování prosím vyplňte tento formulář.