Dodávka RCI clusteru na FEL ČVUT

16. 4. 2019

Podařilo se nám úspěšně zrealizovat další projekt superpočítače v České republice — výpočetní cluster RCI na FEL ČVUT. Dnes proběhla tisková konference a diskuse o RCI projektu.

RCI cluster FEL ČVUT v Praze (zdroj: ČVUT v Praze)

Oficiální tisková zpráva ČVUT v Praze

Fakulta elektrotechnická a Fakulta informačních technologií ČVUT v Praze spojily své síly a založily Výzkumné centrum informatiky (Research Center for Informatics – RCI). V rámci projektu byl vybudován nejvýkonnější počítačový klastr pro výzkum umělé inteligence v ČR v hodnotě 41,6 milionu korun. Toto jedinečné zařízení, které se svým výkonem řadí mezi superpočítače, se nachází v podzemí historické budovy Fakulty elektrotechnické ČVUT na Karlově náměstí.

Centrum excelentního výzkumu v informatice RCI je špičkou české vědy v oblasti počítačových věd a umělé inteligence. Cílem centra je nadále rozvíjet konkurenceschopnou kvalitu výzkumu v mezinárodním měřítku, posílit spolupráci mezi základním a aplikovaným výzkumem, zvát na univerzitní půdu kvalifikované vědce ze zahraničí a propojovat zkušené vědce s mladými studenty. Provoz RCI je financován z Operačního programu Výzkum, vývoj a vzdělávání v rámci výzvy Excelentní výzkum s celkovým rozpočtem 580 milionů korun. Díky dotaci, jejímž poskytovatelem je MŠMT, bylo možné vybudovat počítačový klastr pro výzkum v oblasti umělé inteligence, který je svým výkonem v tomto ohledu nejlepším v celé ČR. Na rok 2022 centrum plánuje navazující rozšíření celého zařízení.

Technické parametry zařízení jsou NVIDIA V100 Tensor Core GPU, který představuje nejvýkonnější akcelerátor pro tzv. high performance computing (vysoce výkonné výpočty) a umělou inteligenci. Celkový instalovaný výkon přes 6 PetaFLOPS. To vše dělá z instalace na ČVUT aktuálně nejvýkonnější superpočítač pro AI aplikace v České republice.

Klastr je složen z 20 CPU výpočetních uzlů Gigabyte s procesory Intel Xeon Gold (celkem 480 procesorových jader), 12 NVIDIA GPU výpočetních uzlů Supermicro, jednoho uzlu Lenovo ThinkSystem SR950 s velkým počtem CPU jader a sdílenou pamětí (192 procesorových jader, 1,5 TB operační paměti), vysokorychlostní propojovací sítě Infiniband EDR (100Gb/s) od firmy Mellanox, rychlých NVMe SSD disků Western Digital a sdíleného škálovatelného diskového pole DELL EMC Isilon. Každý GPU uzel je osazený čtyřmi akcelerátory NVIDIA V100 Tensor Core GPU. Celkem je v klastru osazeno 48 akcelerátorů s celkovým počtem 245 760 CUDA jader, 30 720 Tensor Core a celkovým výpočetním výkonem přes 6 PetaFLOPS v operacích umělé inteligence.

S tímto výkonem budou vědci z RCI moci v plné šíři provádět základní výzkum metod hlubokého učení, které je klíčové pro umělou inteligenci, např. pro aplikace v robotice, bioinformatice, vývoji aplikací pro počítačovou bezpečnost nebo řízení autonomních aut. A v těchto oblastech teď díky projektu RCI bude Česká republika moci konkurovat i zahraničním univerzitám a centrům excelence.

Více informací o projektu najdete na www.rci.cvut.cz.

zdroj: https://aktualne.cvut.cz/stalo-se/20190416-cvut-ma-nejvykonnejsi-superpocitac-pro-vyzkum-umele-inteligence-v-cr

Další parametry superpočítače

Parametry a zajímavosti instalovaného superpočítače:

Různé počítačové architektury v jednom prostředí — CPU uzly, GPU uzly (cca 80% výkonu), SMP uzel.
Celková teoretická výpočetní výkonnost LinPack Rpeak cca 470 TFLOPs (součet instalovaných CPU a GPU) vs. 6 PetaFLOPS pro AI aplikace (výkonnost 48× Nvidia Tesla V100 125 TFLOPs).
Celkem 245 760 CUDA jader, 30 720 tensor jader.
Hyperkonvergovaný výpočetní cluster — každý uzel je osazen výkonným NVMe diskem HGST SN200 (3,3GB/s čtení, 2,1GB/s, 835 000 IOPS čtení, 75 000 IOPS zápis), nad těmito disky je postaven paralelní souborový systém BeeGFS, s dynamickým vytvářením souborových systémů podle potřeb výpočetní úlohy (technologie BeeOND).
Maximální příkon IT části superpočítače — 37 kW.
Superpočítač je schopný využít aplikační kontejnery z Nvidia GPU Cloudu (NGC) — https://ngc.nvidia.com/
Ke správě superpočítače jsou k dispozici open source programy:
- Instalace frameworků a software build: EasyBuild
- Správu kontejnerů: Singularity
- Bootovaní OS pro uzly clusteru: Warewulf
- Souborový systém pro scratch datovou oblast: BeeGFS
- Plánovač úloh: SLURM
- Správa clusteru: Nagios
- Monitoring: Ganglia

,,Celá instalace nám zabrala šest týdnů včetně dodávky všech hardwarových součástí, instalace klimatizace a rozběhnutí softwaru. Vybudovat takový superpočítač v centru Prahy je poměrně unikátní. Museli jsme vytvořit nové rozvody pro napájení a chlazení a navíc jsme čelili limitům zdejší trafostanice.“

Petr Plodík, obchodní ředitel M Computers

zdroj: ČVUT v Praze

Reportáž v pořadu Události v České televizi:

https://www.ceskatelevize.cz/ivysilani/1097181328-udalosti/219411000100416/obsah/688845-novy-superpocitac-pro-umelou-inteligenci