
Porovnání NVIDIA GPU pro datová centra
Parametr | L4 | A2 | A16 | A10 | A40 | L40 | A30 | A100 SXM4 | PCIe | H100 SXM5 | PCIe |
---|---|---|---|---|---|---|---|---|---|
Architektura | Ada Lovelace | Ampere | Ampere | Ampere | Ampere | Ada Lovelace | Ampere | Ampere | Hopper |
Čip karty | AD104 | GA107 | GA107 | GA102 | GA102 | AD102 | GA100 | GA100 | GH100 |
# CUDA jader | TBD | 1 280 | 4x 1 280 | 9 216 | 10 752 | 18 176 | 6 912 | 6 912 | 16 896 | 14 592 |
# Tensor jader | 240 | 40 | 4x 40 | 288 | 336 | 568 | 224 | 432 | 528 | 456 |
FP64 (TFlops) | 0,49 | 0,07 | 0,271 | 0,97 | 1,179 | 1,414 | 5,2 | 9,7 | 34 | 26 |
FP64 Tensor (TFlops) | — | — | — | — | — | — | 10,3 | 19,5 | 67 | 51 |
FP32 (TFlops) | 30,3 | 4,5 | 4x 4,5 | 31,2 | 37,4 | 90,52 | 10,3 | 19,5 | 67 | 51 |
TF32 Tensor (TFlops) | 120* | 18* | 4x 18* | 125* | 150* | 181* | 165* | 312* | 989* |
FP16 Tensor (TFlops) | 242* | 35,9* | 4x 35,9* | 250* | 299* | 362* | 330* | 624* | 1979* |
INT8 Tensor (TOPS) | FP8 485* | 71,8* | 4x 71,8* | 500* | 599* | 724* | 661* | 1248* | 3958* |
GPU paměť | 24 GB | 16 GB | 4x 16 GB | 24 GB | 48 GB | 48 GB | 24 GB | 80 GB | 40 GB | 80 GB |
Typ paměti | GDDR6X | GDDR6 | GDDR6 | GDDR6 | GDDR6 | GDDR6 | HBM2 | HBM2 | HBM3 |
Propustnost paměti | 300 GB/s | 200 GB/s | 4x 200 GB/s | 600 GB/s | 696 GB/s | 864 GB/s | 933 GB/s | 2,0 TB/s | 3,35 | 2 TB/s |
GPU instance | vGPU | vGPU | vGPU | vGPU | vGPU | vGPU | 4 instance | 7 instancí | 7 instancí |
Propojení GPU | PCIe 4 | PCIe 4 | PCIe 4 | PCIe 4 | NVLink 3 | PCIe 4 | NVLink 3 | NVLink 3 | NVLink 4 |
TDP | 40-72 W | 40-60 W | 250 W | 150 W | 300 W | 300 W | 165 W | 400 W| 300 W | 700 W | 350 W |
Provedení | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | SXM4 | PCIe gen4 | SXM5 | PCIe gen5 |
Rok uvedení | 2023 | 2021 | 2021 | 2021 | 2020 | 2022 | 2021 | 2020 | 2022 |
Karta | L4 | A2 | A16 | A10 | A40 | L40 | A30 | A100 | H100 |
* uvedený výkon je pro výpočty s řídkými maticemi (Sparcity), pro standardní výpočty je výkon poloviční oproti uvedeným hodnotám
** NVIDIA A100 PCIe dosahuje 90% uvedeného výpočetního výkonu
GPU pro datová centra
Grafické akcelerátory NVIDIA Tesla a Ampere jsou určené pro urychlení HPC aplikací nebo nasazení algoritmů umělé inteligence a hlubokého učení.
Mezi hlavní výhody NVIDIA karet patří specializovaná Tensor jádra pro machine learning aplikacen. A dále velká paměť (až 80 GB na každý akcelerátor), zabezpečená technologií ECC. Aby mohly akcelerátory mezi sebou rychle komunikovat, propojila je NVIDIA speciálním rozhraním s obrovskou datovou propustností — NVLink. NVLink dosahuje přenosové rychlosti až 600 GB/s. NVIDIA DGX A100 navíc nabízí super výkonný přepínač NVSwitch. Ten zajistí celkovou propustnost mezi osmii NVIDIA Ampere A100 kartami až 4,8 TB/s.
Z analýzy Intersect360 Research je patrné, že většina nejpoužívanějších HPC aplikací již NVIDIA karty podporuje. Patří mezi ně např. GROMACS, Ansys Fluent, Gaussian, VASP, NAMD, Abaqus, OpenFoam, LS Dyna, BLAST, Amber, Gamess, ParaView, NASTRAN a mnoho dalších. Velkému rozšíření NVIDIA akcelerátorů pomohla podpora deep learning frameworků — TensorFlow, Caffe, PyTorch, MXNET, Chainer, Keras a opět mnoha dalších.
Graf napravo názorně ukazuje, jak rychlý je vývoj na poli grafických akcelerátorů, kdy během pouhých čtyřech let došlo až k devítinásobnému nárůstu výkonnosti. Hodnoty vycházejí z průměru výsledků benchmarků nejpoužívanějších aplikací pro AI a HPC (Amber, Chroma, GROMACS, MILC, NAMD, PyTorch, Quantum Espresso, TensorFlow a VASP), které byly naměřeny na dousocketových serverech vždy se čtyřmi akcelerátory P100, V100 nebo A100.
Jak vybrat správné GPU?
Na infografice jsou zmíněné aktuální GP GPU karty pro datová centra a jejich typická nasazení.
NVIDIA karty pro vizualizaci
Profesionální karty NVIDIA RTX určené především pro zpracování grafických operací a simulací, strojového učení, datové analýzy a virtualizace výkonných pracovních stanic.
Porovnání Nvidia karet pro vizualizaci
Parametr | RTX A2000 | RTX A4000 | RTX A4500 | RTX A5000 | RTX A5500 | RTX A6000 | RTX 6000 Ada |
---|---|---|---|---|---|---|---|
Architektura | Ampere | Ampere | Ampere | Ampere | Ampere | Ampere | Ada Lovelace |
Čip karty | GA106 | GA104 | GA102 | GA102 | GA102 | GA102 | AD102 |
# CUDA jader | 3 328 | 6 144 | 7 168 | 8 192 | 10 240 | 10 752 | 18 176 |
# Tensor jader | 104 | 192 | 224 | 256 | 320 | 336 | 568 |
FP64 (TFlops) | 0,124 | 0,6 | 0,739 | 0,87 | 1,085 | 1,25 | 1,423 |
FP32 (TFlops) | 8 | 19,2 | 23,65 | 27,7 | 34,1 | 40 | 91,1 |
FP16 Tensor (TFlops) | 63,9* | 153,4* | 189,2 | 222,2* | 272,8* | 309,7* | 728* |
GPU paměť | 6 / 12 GB | 16 GB | 20 GB | 24 GB | 24 GB | 48 GB | 48GB |
Paměti | GDDR6 | GDDR6 | GDDR6 | GDDR6 | GDDR6 | GDDR6 | GDDR6 |
Propustnost pamětí | 288 GB / s | 448 GB / s | 640 GB / s | 768 GB / s | 768 GB / s | 768 GB / s | 960 GB/s |
ECC paměti | ECC | ECC | ECC | ECC | ECC | ECC | ECC |
Propojení GPU | PCIe gen4 | PCIe gen4 | NVLink 2-way | NVLink 2-way | NVLink 2-way | NVLink 2-way | PCIe gen4 |
Max. příkon | 70 W | 140 W | 200 W | 230 W | 230 W | 300 W | 300W |
Provedení | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 |
Pro datacentra** | Ano | Ano | Ano | Ano | Ano | Ano | Ano |
Oznámení | 2021 | 2021 | 2021 | 2021 | 2022 | 2020 | 2022 |
Karta | RTX A2000 | RTX A4000 | RTX A4500 | RTX A5000 | RTX A5500 | RTX A6000 | RTX 6000 Ada |
* uvedený výkon je pro výpočty s řídkými maticemi (Sparcity), pro standardní výpočty je výkon poloviční oproti uvedeným hodnotám
** podle Nvidia licenčních podmínek k ovladačům karet (EULA) nejsou grafické karty GeForce (GTX, RTX) určeny pro datová centra:
„No Datacenter Deployment. The SOFTWARE is not licensed for datacenter deployment, except that blockchain processing in a datacenter is permitted.“
zdroj: https://www.nvidia.com/content/DriverDownload-March2009/licence.php?lang=us&type=GeForce
NVIDIA nabízí na GPU i DGX systémy speciální cenové akce a programy pro konkrétní projekty a navíc podporuje instituce v oblasti vzdělávání (EDU) nebo start-upy.
Testování
Pro otestování výkonnosti a především rychlosti nasazení ML a AI aplikací máme k dispozici systém NVIDIA DGX Station a v rámci NVIDIA Test Drive programu také NVIDIA A100, NVIDIA A40, NVIDIA A10, Tesla V100 nebo Tesla T4 akcelerátory. V případě Vašeho zájmu o testování prosím vyplňte tento formulář.