NVIDIA představuje nejvýkonnější grafické akcelerátory na trhu. Na těchto kartách je možné urychlit mnoho masivně paralelních úloh a vědeckých (HPC) aplikací nebo efektivně řešit algoritmy umělé inteligence (AI). Připravili jsme průvodce výběrem NVIDIA GPU karet.
GPU | L4 | A16 | A40 | L40S | A100 SXM4 | PCIe | H100 PCIe | H100 | H200 SXM5 | B100 | B200 |
---|---|---|---|---|---|---|---|---|---|
Architecture | Ada Lovelace | Ampere | Ampere | Ada Lovelace | Ampere | Hopper | Hopper | Blackwell | Blackwell |
Card chip | AD104 | GA107 | GA102 | AD102 | GA100 | GH100 | GH100 | B100 | B200 |
# CUDA cores | 7 680 | 4x 1 280 | 10 752 | 18 176 | 6 912 | 14 592 | 16 896 | TBA | TBA |
# Tensor cores | 240 | 4x 40 | 336 | 568? | 432 | 456 | 528 | TBA | TBA |
FP64 (TFlops) | 0,49 | 0,271 | 1,179 | 1,413? | 9,69 | 26 | 34 | TBA | TBA |
FP64 Tensor (TFlops) | — | — | — | — | 19,5 | 51 | 67 | 30 | 40 |
FP32 (TFlops) | 30,3 | 4x 4,5 | 37,4 | 91,6 | 19,5 | 51 | 67 | TBA | TBA |
TF32 Tensor (TFlops) | 120* | 4x 18* | 150* | 366* | 312* | 756* | 989* | 1 800 | 2 200 |
FP16 Tensor (TFlops) | 242* | 4x 35,9* | 299* | 733* | 624* | 1 513* | 1 979* | 3 500 | 4 500 |
INT8 Tensor (TOPS) | FP8 485* | 4x 71,8* | 599* | 1466* | 1 248* | 3 026* | 3 958* | 7 000 | 9 000 |
GPU memory | 24 GB | 4x 16 GB | 48 GB | 48 GB | 80 | 40 GB | 80 GB | 80 | 141 GB | 192 GB | 192 GB |
Memory technology | GDDR6 | GDDR6 | GDDR6 | GDDR6 | HBM2 | HBM3 | HBM3 | HBM3e | HBM3e |
Memory throughput | 300 GB/s | 4x 200 GB/s | 696 GB/s | 864 GB/s | 1 935 | 2 039 GB/s | 2 TB/s | 3,3 | 4.8 TB/s | 8 TB/s | 8 TB/s |
Multi-Instance GPU | vGPU | vGPU | vGPU | vGPU | 7 instances | 7 instances | 7 instances | TBA | TBA |
NVENC | NVDEC | JPEG engines | 2 | 4 | 4 | 4 | 8 | 1 | 2 | 3 | 3 | 4 | 0 | 5 | 5 | 0 | 7 | 7 | 0 | 7 | 7 | TBA | TBA |
GPU link | PCIe 4 | PCIe 4 | NVLink 3 | PCIe 4 | NVLink 3 | NVLink 4 | NVLink 4 | NVLink 5 | NVLink 5 |
Power consumption | 40-72W | 250 W | 300 W | 350 W | 400W | 300W | 350W | 700W | 700W | 1000W |
Form factor | PCIe gen4 1-slot LP | PCIe gen4 2-slot FHFL | PCIe gen4 2-slot FHFL | PCIe gen4 2-slot FHFL | SXM4 | PCIe gen4 2-slot FHFL | PCIe gen5 2-slot FHFL | SXM5 card | SXM5 card | SXM5 card |
Spec sheet | spec sheet | spec sheet | spec sheet | spec sheet | spec sheet | spec sheet | spec sheet | N/A | N/A |
Announcement | 2023 | 2021 | 2020 | 2023 | 2020 | 2022 | 2022 | 2023 | 2024 | 2024 |
Availability | |||||||||
GPU | L4 | A16 | A40 | L40S | A100 SXM4 | PCIe | H100 PCIe | H100 | H200 SXM5 | B100 | B200 |
* uvedený výkon je pro výpočty s řídkými maticemi (Sparcity), pro standardní výpočty je výkon poloviční oproti uvedeným hodnotám
** NVIDIA A100 PCIe dosahuje 90% uvedeného výpočetního výkonu
GPU pro datová centra
Grafické akcelerátory NVIDIA Tesla a Ampere jsou určené pro urychlení HPC aplikací nebo nasazení algoritmů umělé inteligence a hlubokého učení.
Mezi hlavní výhody NVIDIA karet patří specializovaná Tensor jádra pro machine learning aplikacen. A dále velká paměť (až 80 GB na každý akcelerátor), zabezpečená technologií ECC. Aby mohly akcelerátory mezi sebou rychle komunikovat, propojila je NVIDIA speciálním rozhraním s obrovskou datovou propustností — NVLink. NVLink dosahuje přenosové rychlosti až 600 GB/s. NVIDIA DGX A100 navíc nabízí super výkonný přepínač NVSwitch. Ten zajistí celkovou propustnost mezi osmii NVIDIA Ampere A100 kartami až 4,8 TB/s.
Z analýzy Intersect360 Research je patrné, že většina nejpoužívanějších HPC aplikací již NVIDIA karty podporuje. Patří mezi ně např. GROMACS, Ansys Fluent, Gaussian, VASP, NAMD, Abaqus, OpenFoam, LS Dyna, BLAST, Amber, Gamess, ParaView, NASTRAN a mnoho dalších. Velkému rozšíření NVIDIA akcelerátorů pomohla podpora deep learning frameworků — TensorFlow, Caffe, PyTorch, MXNET, Chainer, Keras a opět mnoha dalších.
Graf napravo názorně ukazuje, jak rychlý je vývoj na poli grafických akcelerátorů, kdy během pouhých čtyřech let došlo až k devítinásobnému nárůstu výkonnosti. Hodnoty vycházejí z průměru výsledků benchmarků nejpoužívanějších aplikací pro AI a HPC (Amber, Chroma, GROMACS, MILC, NAMD, PyTorch, Quantum Espresso, TensorFlow a VASP), které byly naměřeny na dousocketových serverech vždy se čtyřmi akcelerátory P100, V100 nebo A100.
Jak vybrat správné GPU?
Na infografice jsou zmíněné aktuální GP GPU karty pro datová centra a jejich typická nasazení.
NVIDIA karty pro vizualizaci
Profesionální karty NVIDIA RTX určené především pro zpracování grafických operací a simulací, strojového učení, datové analýzy a virtualizace výkonných pracovních stanic.
Porovnání Nvidia karet pro vizualizaci
Parametr | RTX A2000 | RTX A4000 | RTX A4500 | RTX A5000 | RTX A5500 | RTX A6000 | RTX 6000 Ada |
---|---|---|---|---|---|---|---|
Architektura | Ampere | Ampere | Ampere | Ampere | Ampere | Ampere | Ada Lovelace |
Čip karty | GA106 | GA104 | GA102 | GA102 | GA102 | GA102 | AD102 |
# CUDA jader | 3 328 | 6 144 | 7 168 | 8 192 | 10 240 | 10 752 | 18 176 |
# Tensor jader | 104 | 192 | 224 | 256 | 320 | 336 | 568 |
FP64 (TFlops) | 0,124 | 0,6 | 0,739 | 0,87 | 1,085 | 1,25 | 1,423 |
FP32 (TFlops) | 8 | 19,2 | 23,65 | 27,7 | 34,1 | 40 | 91,1 |
FP16 Tensor (TFlops) | 63,9* | 153,4* | 189,2 | 222,2* | 272,8* | 309,7* | 728* |
GPU paměť | 6 / 12 GB | 16 GB | 20 GB | 24 GB | 24 GB | 48 GB | 48GB |
Paměti | GDDR6 | GDDR6 | GDDR6 | GDDR6 | GDDR6 | GDDR6 | GDDR6 |
Propustnost pamětí | 288 GB / s | 448 GB / s | 640 GB / s | 768 GB / s | 768 GB / s | 768 GB / s | 960 GB/s |
ECC paměti | ECC | ECC | ECC | ECC | ECC | ECC | ECC |
Propojení GPU | PCIe gen4 | PCIe gen4 | NVLink 2-way | NVLink 2-way | NVLink 2-way | NVLink 2-way | PCIe gen4 |
Max. příkon | 70 W | 140 W | 200 W | 230 W | 230 W | 300 W | 300W |
Provedení | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 | PCIe gen4 |
Pro datacentra** | Ano | Ano | Ano | Ano | Ano | Ano | Ano |
Oznámení | 2021 | 2021 | 2021 | 2021 | 2022 | 2020 | 2022 |
Karta | RTX A2000 | RTX A4000 | RTX A4500 | RTX A5000 | RTX A5500 | RTX A6000 | RTX 6000 Ada |
* uvedený výkon je pro výpočty s řídkými maticemi (Sparcity), pro standardní výpočty je výkon poloviční oproti uvedeným hodnotám
** podle Nvidia licenčních podmínek k ovladačům karet (EULA) nejsou grafické karty GeForce (GTX, RTX) určeny pro datová centra:
„No Datacenter Deployment. The SOFTWARE is not licensed for datacenter deployment, except that blockchain processing in a datacenter is permitted.“
zdroj: https://www.nvidia.com/content/DriverDownload-March2009/licence.php?lang=us&type=GeForce
NVIDIA nabízí na GPU i DGX systémy speciální cenové akce a programy pro konkrétní projekty a navíc podporuje instituce v oblasti vzdělávání (EDU) nebo start-upy.
Testování
Pro otestování výkonnosti a především rychlosti nasazení ML a AI aplikací máme k dispozici systém NVIDIA DGX Station a v rámci NVIDIA Test Drive programu také NVIDIA A100, NVIDIA A40, NVIDIA A10, Tesla V100 nebo Tesla T4 akcelerátory. V případě Vašeho zájmu o testování prosím vyplňte tento formulář.