Průvodce NVIDIA GPU pro HPC a AI

Průvodce NVIDIA GPU pro datová centra

NVIDIA představuje nejvýkonnější grafické akcelerátory na trhu. Na těchto kartách je možné urychlit mnoho masivně paralelních úloh
a vědeckých (HPC) aplikací nebo efektivně řešit algoritmy umělé inteligence (AI). Připravili jsme průvodce výběrem NVIDIA GPU karet.

GPU	L4	A16	A40	L40S	RTX PRO 6000 Blackwell SE	A100 PCIe \| SXM4	H100 PCIe	H100 SXM5	H100 NVL	H200 SXM5	H200 NVL	B200	B300
Architecture	Ada Lovelace	Ampere	Ampere	Ada Lovelace	Blackwell	Ampere	Hopper	Hopper	Hopper	Hopper	Hopper	Blackwell	Blackwell
Card chip	AD104	GA107	GA102	AD102	GB202	GA100	GH100	GH100	GH100	GH100	GH100	B200	B300
# CUDA cores	7 680	4x 1 280	10 752	18 176	24 064	6 912	14 592	16 896	16 896	16 896	16 896	TBA	TBA
# Tensor cores	240	4x 40	336	568?	752	432	456	528	528	528	528	TBA	TBA
GPU memory	24 GB	4x 16 GB	48 GB	48 GB	96 GB	80 \| 40 GB	80 GB	80 GB	94 GB	141 GB	141 GB	192 GB	288 GB
Memory technology	GDDR6	GDDR6	GDDR6	GDDR6	GDDR7	HBM2	HBM3	HBM3	HBM3e	HBM3e	HBM3e	HBM3e	HBM3e
Memory throughput	300 GB/s	4x 200 GB/s	696 GB/s	864 GB/s	1.6 TB/s	1 935 \| 2 039 GB/s	2 TB/s	3.3 TB/s	3.9 TB/s	4.8 TB/s	4.8 TB/s	8 TB/s	10 TB/s
FP64 (TFlops)	0,49	0,271	1,179	1,413?	—	9.7	26	30	30	34	30	TBA	TBA
FP64 Tensor (TFlops)	—	—	—	—	—	19.5	51	60	60	67	60	37	1.2
FP32 (TFlops)	30,3	4x 4,5	37,4	91,6	120.0	19.5	51	60	60	67	60	75	72
TF32 Tensor (TFlops)	120*	4x 18*	150*	366*	251	312* \| 624*	756*	989*	835*	989*	835*	2 200*	2 200*
FP16 Tensor (TFlops)	242*	4x 35,9*	299*	733*	503.8	312* \| 624*	1 513*	1 979*	1 671*	1 979*	1 671*	4 500*	4 500*
INT8 Tensor (TOPS)	485*	4x 71,8*	599*	1 466*	1 007.6	624* \| 1 248*	3 026*	3 958*	3 341*	3 958*	3 341*	9 000*	280*
FP8 Tensor (TFlops)	485*	—	—	1 466*	2 015.2*	—	3 026*	3 958*	3 341*	3 958*	3 341*	9 000*	9 000*
FP4 Tensor (TFlops)	—	—	—	—	4 030.4*	—	—	—	—	—	—	18 000*	18 000*
Multi-Instance GPU	vGPU	vGPU	vGPU	vGPU	4 instances	7 instances	7 instances	7 instances	7 instances	7 instances	7 instances	TBA	TBA
NVENC \| NVDEC \| JPEG engines	2 \| 4 \| 4	4 \| 8	1 \| 2	3 \| 3 \| 4	4 \| 4 \| 4	0 \| 5 \| 5	0 \| 7 \| 7	0 \| 7 \| 7	0 \| 7 \| 7	0 \| 7 \| 7	0 \| 7 \| 7	0 \| 7 \| 7	0 \| 7 \| 7
GPU link	PCIe 4	PCIe 4	NVLink 3	PCIe 4	PCIe 5	NVLink 3	NVLink 4	NVLink 4	NVLink 4	NVLink 4	NVLink 4	NVLink 5	NVLink 5
Power consumption	40-72W	250 W	300 W	350 W	600 W	300 W \| 400 W	350W	700 W	400 W	700W	600W	1 000W	1 400W
Form factor	PCIe gen4 1-slot LP	PCIe gen4 2-slot FHFL	PCIe gen4 2-slot FHFL	PCIe gen4 2-slot FHFL	PCIe gen5 2-slot FHFL	SXM4 \| PCIe gen4 2-slot FHFL	PCIe gen5 2-slot FHFL	SXM5 card	PCIe gen5 2-slot FHFL	SXM5 card	PCIe gen5 2-slot FHFL	SXM5 card	SXM5 card
Spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet	spec sheet
Announcement	2023	2021	2020	2023	2025	2020	2022	2022	2024	2023	2023	2024	2025
Availability
GPU	L4	A16	A40	L40S	RTX PRO 6000 Blackwell Server Edition	A100 SXM4 \| PCIe	H100 PCIe	H100 SXM5	H100 NVL	H100 \| H200 SXM5	H200 NVL	B200	B300

* uvedený výkon je pro výpočty s řídkými maticemi (Sparsity), pro standardní výpočty je výkon poloviční oproti uvedeným hodnotám

Podrobný průvodce výběrem NVIDIA GPU

Na portálu AIserver.eu jsme vytvořili podrobného průvodce NVIDIA GPU. Pro rychlé seznámení s NVIDIA kartami slouží Quick guide. Expert guide obsahuje porovnání všech parametrů karet. K dispozici jsou aplikační benchmarky nebo parametry starších karet.

Podrobný průvodce na AIserver.eu

GPU pro datová centra

Grafické akcelerátory NVIDIA Tesla a Ampere jsou určené pro urychlení HPC aplikací nebo nasazení algoritmů umělé inteligence a hlubokého učení.

Mezi hlavní výhody NVIDIA karet patří specializovaná Tensor jádra pro machine learning aplikacen. A dále velká paměť (až 192 GB na každý akcelerátor), zabezpečená technologií ECC. Aby mohly akcelerátory mezi sebou rychle komunikovat, propojila je NVIDIA speciálním rozhraním s obrovskou datovou propustností – NVLink™. NVLink dokáže výrazně zvýšit propustnost mezi kartami, v případě propojení karet generace Blackwell se vyšplhá propustnost až na 1.8 TB/s.

Z analýzy Intersect360 Research je patrné, že většina nejpoužívanějších HPC aplikací již NVIDIA karty podporuje. Patří mezi ně např. GROMACS, Ansys Fluent, Gaussian, VASP, NAMD, Abaqus, OpenFoam, LS Dyna, BLAST, Amber, Gamess, ParaView, NASTRAN a mnoho dalších. Velkému rozšíření NVIDIA akcelerátorů pomohla podpora deep learning frameworků — TensorFlow, Caffe, PyTorch, MXNET, Chainer, Keras a opět mnoha dalších.

Graf napravo názorně ukazuje, jak rychlý je vývoj na poli grafických akcelerátorů, kdy během pouhých čtyřech let došlo až k devítinásobnému nárůstu výkonnosti. Hodnoty vycházejí z průměru výsledků benchmarků nejpoužívanějších aplikací pro AI a HPC (Amber, Chroma, GROMACS, MILC, NAMD, PyTorch, Quantum Espresso, TensorFlow a VASP), které byly naměřeny na dousocketových serverech vždy se čtyřmi akcelerátory P100, V100 nebo A100.

Jak vybrat správné GPU?

Na infografice jsou zmíněné aktuální GP GPU karty pro datová centra a jejich typická nasazení.

NVIDIA karty pro vizualizaci

Profesionální karty NVIDIA RTX PRO™ určené především pro zpracování grafických operací a simulací, strojového učení, datové analýzy a virtualizace výkonných pracovních stanic.

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

Porovnání NVIDIA karet pro vizualizaci

Parametr	RTX A2000	RTX A4000	RTX A4500	RTX A5000	RTX A5500	RTX A6000	RTX 4000 SFF Ada	RTX 4000 Ada	RTX 4500 Ada	RTX 5000 Ada	RTX 6000 Ada	RTX PRO 2000 Blackwell	RTX PRO 4000 Blackwell	RTX PRO 4000 Blackwell	RTX PRO 4500 Blackwell	RTX PRO 4500 Blackwell SE	RTX PRO 5000 Blackwell	RTX PRO 6000 Blackwell	RTX PRO 6000 Blackwell
Architektura	Ampere	Ampere	Ampere	Ampere	Ampere	Ampere	Lovelace	Lovelace	Lovelace	Lovelace	Lovelace	Blackwell	Blackwell	Blackwell	Blackwell	Blackwell	Blackwell	Blackwell	Blackwell
Čip karty	GA 106	GA 104	GA 102	GA 102	GA 102	GA 102	AD 103	AD 103	AD 103	AD 103	AD 102	GB 206	GB 203	GB 203	GB 203	GB 203	GB 202	GB 202	GB 202
# CUDA jader	3 328	6 144	7 168	8 192	10 240	10 752	6 144	6 144	7 680	12 800	18 176	4 352	8 960	8 960	10 496	10 496	14 080	24 064	24 064
# Tensor jader	104	192	224	256	320	336	192	192	240	400	568	136	280	280	328	328	440	752	752
Base frekvence	562 MHz	735 MHz	1 050 MHz	1 080 MHz	1 170 MHz	1 410 MHz	720 MHz	1 500 MHz	2 070 MHz	1 155 MHz	915 MHz	790 MHz	1 590 MHz	1 590 MHz	1 590 MHz	1 590 MHz	1 590 MHz	1 590 MHz	1 590 MHz
Boost frekvence	1 200 MHz	1 560 MHz	1 650 MHz	1 665 MHz	1 695 MHz	1 800 MHz	1 560 MHz	2 175 MHz	2 580 MHz	2 550 MHz	2 505 MHz	1 950 MHz	2 617 MHz	2 617 MHz	2 617 MHz	2 617 MHz	2 617 MHz	2 617 MHz	2 288 MHz
GPU paměť	6 / 12 GB	16 GB	20 GB	24 GB	24 GB	48 GB	20 GB	20 GB	24 GB	32 GB	48 GB	16 GB	24 GB	24 GB	32 GB	32 GB	48 GB \| 72 GB	96 GB	96 GB
Typ Paměti	GDDR6	GDDR6	GDDR6	GDDR6	GDDR6	GDDR6	GDDR6	GDDR6	GDDR6	GDDR6	GDDR6	GDDR7	GDDR7	GDDR7	GDDR7	GDDR7	GDDR7	GDDR7	GDDR7
Propustnost pamětí	288 GB / s	448 GB / s	640 GB / s	768 GB / s	768 GB / s	768 GB / s	280 GB/s	360 GB/s	432 GB/s	576 GB/s	960 GB/s	288 GB/S	672 GB/s	432 GB/s	896 GB/s	896 GB/s	1344 GB/s	1792 GB/s	1792 GB/s
ECC paměti	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano
FP64 (TFlops)	0,124	0,6	0,739	0,87	1,085	1,25	—	—	—	—	—	—	—	—	—	—	—	—	—
FP32 (TFlops)	8	19,2	23,65	27,7	34,1	40	19.2	26.73	39.63	65.28	91.1	17.0	37.0	—	—	51	65.0	125.0	110.0
FP16 Tensor (TFlops)	63.9*	153.4*	189.2	222.2*	272.8*	309,7*	306.8	427.6*	634*	1 044.4*	1 457*	—	—	—	—	406	—	1 007.6*	877.9*
FP8 Tensor (TFlops)	—	—	—	—	—	—	306.8*	427.6*	634*	1044.5*	1457.0*	—	—	—	—	811	—	2 015.2*	1 755.7*
FP4 Tensor (TFlops)	—	—	—	—	—	—	—	N/A	—	—	—	—	—	—	—	1 600	—	4,000*	3,520*
Propojení GPU	PCIe gen4	PCIe gen4	NVLink 2-way	NVLink 2-way	NVLink 2-way	NVLink 2-way	—	—	—	—	—	—	—	—	—	—	—	—	—
Max. příkon	70 W	140 W	200 W	230 W	230 W	300 W	70 W	130 W	210 W	250 W	300 W	70 W	145 W	70 W	200 W	200 W	300 W	600 W	300 W
Provedení	PCIe gen4	PCIe gen4	PCIe gen4	PCIe gen4	PCIe gen4	PCIe gen4	PCIe 4.0	PCIe 4.0	PCIe 4.0	PCIe 4.0	PCIe 4.0	PCIe 5.0	PCIe 5.0	PCIe 5.0	PCIe 5.0	PCIe 5.0	PCIe 5.0	PCIe 5.0	PCIe 5.0
Pro datacentra**	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano	Ano
Oznámení	2021	2021	2021	2021	2022	2020	2023	2023	2023	2023	2022	2025	2025	2025	2025	2026	2025	2025	2025
Karta	RTX A2000	RTX A4000	RTX A4500	RTX A5000	RTX A5500	RTX A6000	RTX 4000 SFF Ada	RTX 4000 Ada	RTX 4500 Ada	RTX 5000 Ada	RTX 6000 Ada	RTX PRO 2000 Blackwell	RTX PRO 4000 Blackwell	RTX PRO 4000 Blackwell SFF	RTX PRO 4500 Blackwell	RTX PRO 4500 Blackwell Server Edition	RTX PRO 5000 72GB Blackwell	RTX PRO 6000 Blackwell Workstation Edition	RTX PRO 6000 Blackwell Max-Q Workstation Edition
	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet	Datasheet

* uvedený výkon je pro výpočty s řídkými maticemi (Sparcity), pro standardní výpočty je výkon poloviční oproti uvedeným hodnotám

** podle Nvidia licenčních podmínek k ovladačům karet (EULA) nejsou grafické karty GeForce (GTX, RTX) určeny pro datová centra:
„No Datacenter Deployment. The SOFTWARE is not licensed for datacenter deployment, except that blockchain processing in a datacenter is permitted.“
zdroj: https://www.nvidia.com/content/DriverDownload-March2009/licence.php?lang=us&type=GeForce

Výkonnostní hodnoty FPx jsou počítány dle vzorce
FPx_sparse = N_SM × N_TC × M_FPx × 2 × f × S

EDU ceny

NVIDIA nabízí na GPU i DGX systémy speciální cenové akce a programy pro konkrétní projekty a navíc podporuje instituce v oblasti vzdělávání (EDU) nebo start-upy.

Získat nabídku

NVIDIA B200

Čipy NVIDIA Blackwell jsou novou nejvýkonnější generací akcelerátorů pro zásadní zrychlování AI a HPC projektů, zlepšování efektivity a rozšířitelnosti. Platforma Blackwell nabízí největší možnou fyzickou velikost čipů, což vede také k obrovské hustotě osazení tranzistory a bezkonkurenčnímu datovému toku.

Více informací

DGX B200

Testování

Pro otestování výkonnosti a zpracování náročných úloh máme k dispozici širokou škálu NVIDIA GPU karet.
V případě Vašeho zájmu o testování prosím vyplňte tento formulář.

Kamila Jeřábková

NVIDIA, AI řešení

+420 734 161 516

kamila.jerabkova@mcomputers.cz

Průvodce NVIDIA GPU pro datová centra

Podrobný průvodce výběrem NVIDIA GPU

GPU pro datová centra

Jak vybrat správné GPU?

NVIDIA karty pro vizualizaci

Profesionální karty NVIDIA RTX PRO™ určené především pro zpracování grafických operací a simulací, strojového učení, datové analýzy a virtualizace výkonných pracovních stanic.

Porovnání NVIDIA karet pro vizualizaci

EDU ceny

NVIDIA nabízí na GPU i DGX systémy speciální cenové akce a programy pro konkrétní projekty a navíc podporuje instituce v oblasti vzdělávání (EDU) nebo start-upy.

NVIDIA B200

Testování

Kamila Jeřábková

Novinky

M Computers podpořilo 3. ročník Lenovoshop letního poháru

M Computers jako Cyklozaměstnavatel roku za město Brno

M Computers míří na NVIDIA GTC Berlin 2026 jako Silver partner

M Computers obsadilo 22. místo v žebříčku TOP 100 ICT firem v ČR

O nás

Naše stránky

Pro váš IT svět

Kontakt