Představení NVIDIA Ampere
Od grafických karet po AI superpočítače
Společnost NVIDIA byla vždy synonymem pro výkonné grafické karty (GPU). V roce 2007 uvedla programové prostředí CUDA pro zpracování obecných výpočtů nad grafickými kartami (GP GPU = General Purpose GPU) a stala tak významným hráčem v oblasti akcelerovaných výpočtů pro HPC (High Performance Computing) aplikace, analýzu dat a v poslední době také pro nasazení algoritmů umělé inteligence. NVIDIA od té doby uvedla celou řadu hardwarových i softwarových technologií pro další urychlení výpočtů a její akcelerátory se staly hlavní výpočetní silou nejvýkonnějších superpočítačů na světě — #1 Summit a #2 Sierra od IBM jsou postaveny na čipech NVIDIA Tesla V100.
GTC 2020
GPU Technology Conference (GTC) je největší světová konference o grafických kartách, akcelerovaných výpočtech a v posledních letech především umělé inteligenci. Pravidelně největšímu zájmu se těší úvodní prezentace Jensena Hunga, který ve své typické černé kožené bundě představuje novinky a trendy v oblastech, ve kterých nabízí NVIDIA své produkty. Od oznámení přelomového akcelerátoru NVIDIA Tesla V100 uběhly již tři roky, proto se letos s napětím očekávalo, co nového v NVIDII upekli. Jensenova prezentace začíná tradičně… I AM AI.
NVIDIA Ampere
Po shlédnutí videa z Jensenovy kuchyně je zřejmé, že tou největší novinkou letošní prezentace bude GPU architektura NVIDIA Ampere, akcelerátor NVIDIA A100, který je na této architektuře postavený a dále systém DGX A100. DGX A100 je referenční architektura vyladěného systému pro AI a HPC výpočty, osazený osmi akcelerátory NVIDIA A100. Systémovou desku se těmito osmi GPU akcelerátory vyndává Jensen ve svém videu z trouby a hovoří o ni jako o nejvýkonnějším akcelerátoru na světě.
NVIDIA A100
Akcelerátor NVIDIA A100 je vyráběn 7 nm technologií v továrně TSMC. Obsahuje přes 54 miliard tranzistorů na ploše 826 mm2. Mezi hlavní technologické inovace nového čipu patří:
- Tensor jádra (3. generace) optimalizované pro HPC výpočty a AI
- 40 GB rychlé HBM2 s propustností 1,6 TB/s, 40 MB L2 cache
- Multi-Instance GPU (MIG) pro práci více uživatelů s jednou kartou
- rychlejší NVLINK pro vzájemné propojení více karet (600 GB/s na kartu)
- PCIe gen4 sběrnice pro připojení k CPU a síťovým kartám (31,5 GB/s)
Vylepšení Tensor jader v FP64 (double precission) výpočtech výrazně pomáhá výpočetnímu výkonu v tradičních HPC výpočtech a simulacích, zatímco podpora TF32 a BF16 akcelerují trénování i následnou aplikaci (inference) neuronových sítí. Maximální teoretická výkonnost pro jednotlivé přesnosti výpočtu je uvedena v tabulce napravo. Uvedené hodnoty počítají s Boost frekvencí výpočetních jader. Pro práci s hlubokými neuronovými sítěmi představila NVIDIA také Fine grained structured sparsity. Díky ní je možné uvedené hodnoty výkonnosti zdvojnásobit!
Porovnání NVIDIA A100 se stávajícími akcelerátory
Obecně je akcelerátor NVIDIA A100 nejvýkonnější hardware, na kterém je možné zpracovávat náročné výpočetní úlohy.
Parametr | Tesla T4 | Tesla V100 SXM2 | A100 SXM4 | DGX-1 | DGX-2 | DGX A100 |
---|---|---|---|---|---|---|
Architektura karty | Turing | Volta | Ampere | Volta | Volta | Ampere |
Počet CUDA jader | 2 560 | 5 120 | 6 912 | 40 960 | 81 920 | 55 296 |
Počet Tensor jader | 320 | 640 | 432 | 5 120 | 10 240 | 3 456 |
Výkon FP64 | 0,25 TFLOPS | 7,8 TFLOPS | 9,7 TFLOPS | 62 TFLOPS | 125 TFLOPS | 77,6 TFLOPS |
Výkon Tensor (FP64) | — | — | 19,5 TFLOPS | — | — | 156 TFLOPS |
Výkon FP32 | 8,1 TFLOPS | 15,7 TFLOPS | 19,5 TFLOPS | 125 TFLOPS | 250 TFLOPS | 156 TFLOPS |
Výkon Tensor (TF32) | — | — | 156 TFLOPS | — | — | 1,2 PFLOPS |
Výkon Tensor (FP16) | 65 TFLOPS | 125 TFLOPS | 312 TFLOPS | 1 PFLOPS | 2 PFLOPS | 2,5 PFLOPS |
GPU paměť | 16 GB | 32 GB | 40 GB | 256 GB | 512 GB | 320 GB |
Technologie paměti | GDDR6 | HMB2 | HMB2 | HMB2 | HMB2 | HBM2 |
Propustnost pamětí | 300 GB/s | 900 GB/s | 1 ,5 TB/s | 900 GB/s | 900 GB/s | 1,5 TB/s |
Propojení GPU karet | Není | NVLink | NVLink3 | NVLink, hypercube topologie | NVSwitch, non-blocking | NVSwitch3, non-blocking |
Maximální příkon | 70 W | 300 W | 400 W | 3 500 W | 10 kW | 6,6 kW |
Provedení | PCIe karta | SXM2 karta | SXM4 karta | rack, 3U | rack, 10U | rack |
Rok uvedení na trh | 2018 | 2017 | 2020 | 2017 | 2018 | 2020 |
Přehledem aktuálních CPU platforem (Intel, AMD, POWER a ARM) jsme se věnovali v březnovém Porovnání serverových procesorů. Připravujeme porovnání akcelerátorů pro oblasti HPC a AI.
NVIDIA DGX A100
Při ohlášení předchozí generace Tesla akcelerátorů uvedla NVIDIA i referenční systémy optimalizované pro HPC a AI výpočty — NVIDIA DGX. S uvedením akcelerátoru NVIDIA A100 byl zároveň představen i nový DGX systém — NVIDIA DGX A100.
Společně se systémem DGX A100 uvedla NVIDIA také systém HGX A100, což je systémová deska osazena čtyřmi nebo osmi akcelerátory NVIDIA A100, kterou OEM i ODM výrobci serverů zaintegrují do svých systémů. Mezi prvními výrobci těchto systémů by měly patřit společnosti HPE, Gigabyte nebo Supermicro.