Představení NVIDIA Ampere

14. května 2020 představil zakladatel a generální ředitel společnosti NVIDIA Jensen Huang v průběhu konference GTC novou architekturu akcelerátorů NVIDIA Ampere pro řešení nejnáročnějších úloh v oblastech HPC (High performance computing) nebo umělé inteligence. Souhrn nejzajímavějších postřehů a novinek představíme v následujícím textu.


Od grafických karet po AI superpočítače

Společnost NVIDIA byla vždy synonymem pro výkonné grafické karty (GPU). V roce 2007 uvedla programové prostředí CUDA pro zpracování obecných výpočtů nad grafickými kartami (GP GPU = General Purpose GPU) a stala tak významným hráčem v oblasti akcelerovaných výpočtů pro HPC (High Performance Computing) aplikace, analýzu dat a v poslední době také pro nasazení algoritmů umělé inteligence. NVIDIA od té doby uvedla celou řadu hardwarových i softwarových technologií pro další urychlení výpočtů a její akcelerátory se staly hlavní výpočetní silou nejvýkonnějších superpočítačů na světě — #1 Summit a #2 Sierra od IBM jsou postaveny na čipech NVIDIA Tesla V100.

Jensen Huang

GTC 2020

GPU Technology Conference (GTC) je největší světová konference o grafických kartách, akcelerovaných výpočtech a v posledních letech především umělé inteligenci. Pravidelně největšímu zájmu se těší úvodní prezentace Jensena Hunga, který ve své typické černé kožené bundě představuje novinky a trendy v oblastech, ve kterých nabízí NVIDIA své produkty. Od oznámení přelomového akcelerátoru NVIDIA Tesla V100 uběhly již tři roky, proto se letos s napětím očekávalo, co nového v NVIDII upekli. Jensenova prezentace začíná tradičně… I AM AI.

NVIDIA Ampere

Po shlédnutí videa z Jensenovy kuchyně je zřejmé, že tou největší novinkou letošní prezentace bude GPU architektura NVIDIA Ampere, akcelerátor NVIDIA A100, který je na této architektuře postavený a dále systém DGX A100. DGX A100 je referenční architektura vyladěného systému pro AI a HPC výpočty, osazený osmi akcelerátory NVIDIA A100. Systémovou desku se těmito osmi GPU akcelerátory vyndává Jensen ve svém videu z trouby a hovoří o ni jako o nejvýkonnějším akcelerátoru na světě.

NVIDIA A100

Akcelerátor NVIDIA A100 je vyráběn 7 nm technologií v továrně TSMC. Obsahuje přes 54 miliard tranzistorů na ploše 826 mm2. Mezi hlavní technologické inovace nového čipu patří:

  • Tensor jádra (3. generace) optimalizované pro HPC výpočty a AI
  • 40 GB rychlé HBM2 s propustností 1,6 TB/s, 40 MB L2 cache
  • Multi-Instance GPU (MIG) pro práci více uživatelů s jednou kartou
  • rychlejší NVLINK pro vzájemné propojení více karet (600 GB/s na kartu)
  • PCIe gen4 sběrnice pro připojení k CPU a síťovým kartám (31,5 GB/s)

Vylepšení Tensor jader v FP64 (double precission) výpočtech výrazně pomáhá výpočetnímu výkonu v tradičních HPC výpočtech a simulacích, zatímco podpora TF32 a BF16 akcelerují trénování i následnou aplikaci (inference) neuronových sítí. Maximální teoretická výkonnost pro jednotlivé přesnosti výpočtu je uvedena v tabulce napravo. Uvedené hodnoty počítají s Boost frekvencí výpočetních jader. Pro práci s hlubokými neuronovými sítěmi představila NVIDIA také Fine grained structured sparsity. Díky ní je možné uvedené hodnoty výkonnosti zdvojnásobit!

Přesnost Výkonnost
FP64 9,7 TFLOPS
FP64 Tensor Core 19,5 TFLOPS
FP32 19,5 TFLOPS
FP16 78 TFLOPS
BF16 39 TFLOPS
TF32 Tensor Core 156 TFLOPS
FP16 Tensor Core 312 TFLOPS
BF16 Tensor Core 312 TFLOPS
INT8 Tensor Core 624 TOPS
INT4 Tensor Core 1 248 TOPS

Porovnání NVIDIA A100 se stávajícími akcelerátory

Obecně je akcelerátor NVIDIA A100 nejvýkonnější hardware, na kterém je možné zpracovávat náročné výpočetní úlohy.

Parametr Tesla T4 Tesla V100 SXM2 A100 SXM4 DGX-1 DGX-2 DGX A100
Architektura karty Turing Volta Ampere Volta Volta Ampere
Počet CUDA jader 2 560 5 120 6 912 40 960 81 920 55 296
Počet Tensor jader 320 640 432 5 120 10 240 3 456
Výkon FP64 0,25 TFLOPS 7,8 TFLOPS 9,7 TFLOPS 62 TFLOPS 125 TFLOPS 77,6 TFLOPS
Výkon Tensor (FP64) 19,5 TFLOPS 156 TFLOPS
Výkon FP32 8,1 TFLOPS 15,7 TFLOPS 19,5 TFLOPS 125 TFLOPS 250 TFLOPS 156 TFLOPS
Výkon Tensor (TF32) 156 TFLOPS 1,2 PFLOPS
Výkon Tensor (FP16) 65 TFLOPS 125 TFLOPS 312 TFLOPS 1 PFLOPS 2 PFLOPS 2,5 PFLOPS
GPU paměť 16 GB 32 GB 40 GB 256 GB 512 GB 320 GB
Technologie paměti GDDR6 HMB2 HMB2 HMB2 HMB2 HBM2
Propustnost pamětí 300 GB/s 900 GB/s 1 ,5 TB/s 900 GB/s 900 GB/s 1,5 TB/s
Propojení GPU karet Není NVLink NVLink3 NVLink, hypercube topologie NVSwitch, non-blocking NVSwitch3, non-blocking
Maximální příkon 70 W 300 W 400 W 3 500 W 10 kW 6,6 kW
Provedení PCIe karta SXM2 karta SXM4 karta rack, 3U rack, 10U rack
Rok uvedení na trh 2018 2017 2020 2017 2018 2020

Přehledem aktuálních CPU platforem (Intel, AMD, POWER a ARM) jsme se věnovali v březnovém Porovnání serverových procesorů. Připravujeme porovnání akcelerátorů pro oblasti HPC a AI.

A100 AI acceleration
A100 HPC acceleration

NVIDIA DGX A100

Při ohlášení předchozí generace Tesla akcelerátorů uvedla NVIDIA i referenční systémy optimalizované pro HPC a AI výpočty — NVIDIA DGX. S uvedením akcelerátoru NVIDIA A100 byl zároveň představen i nový DGX systém — NVIDIA DGX A100.

NVIDIA DGX A100

Společně se systémem DGX A100 uvedla NVIDIA také systém HGX A100, což je systémová deska osazena čtyřmi nebo osmi akcelerátory NVIDIA A100, kterou OEM i ODM výrobci serverů zaintegrují do svých systémů. Mezi prvními výrobci těchto systémů by měly patřit společnosti HPE, Gigabyte nebo Supermicro.