Výpočetní cluster na ÚOCHB AV ČR
Ústav organické chemie a biochemie AV ČR (ÚOCHB) využívá pro základní výzkum superpočítače pro provádění výpočtů v oblasti biofyziky se zaměřením především na molekulární dynamiku a výpočty kvantové chemie. V roce 2019 rozšířil ústav svoji infrastrukturu o výpočetní cluster o celkovém počtu 8 532 procesorových jader.
Veřejná zakázka na výpočetní cluster
Předmětem veřejné zakázky bylo dodat, instalovat, konfigurovat a zprovoznit sady výpočetních a řídicích serverů, úložišť a dalších součástí včetně následných servisních služeb po dobu pěti let. Výpočetní cluster měl tvořit jeden funkční celek a jeho součásti měly být navzájem propojeny datovou sítí s nízkou latencí, sloužící k přenosu uživatelských dat a komunikaci víceprocesorových paralelních výpočtů a komunikační a řídicí sítí zajišťující provoz clusteru. Výpočetní cluster musel umožňovat instalaci softwaru potřebného pro úspěšné dokončení projektu OPVVV. Tento software zahrnoval minimálně následující:
- Volně dostupný software Gromacs, NAMD, Siesta, Anaconda (Python 3.6+), Octave, PyMol.
- Proprietární software Amber14+, Gaussian2016+, Turbomole, VMD a Matlab2018a+, pro který má zadavatel již zakoupeny licence vázané na operační systém Linux; cluster musel umožnit spuštění tohoto software.
Další podmínkou pro cluster bylo, že musel umožnit provádění rychlých masivně paralelních výpočtů (MPP), tj. výpočtů rozprostřených přes více uzlů clusteru a komunikujících zejména (nikoliv výlučně) prostřednictvím protokolů MPI na síti s nízkou latencí (zpožděním) využívající komunikace typu Infiniband nebo Omnipath.
Výpočetní uzly clusteru musely maximalizovat datovou propustnost operační paměti, jelikož kvantově-mechanické výpočty a výpočty v programu Matlab dramaticky profitují z rychlého přístupu k datům v operační paměti. Zároveň musely být procesory výpočetních uzlů vybaveny velkou vyrovnávací pamětí, neboť výpočty molekulární dynamiky a kvantově-mechanické simulace provádějí značné množství vektorových operací, při kterých vede větší cache k minimalizaci „cache misses“, a tím ke dramatickému zvýšení rychlosti výpočtů. Některé z vyjmenovaných programů zároveň závisejí na vektorizaci, takže k dosažení optimální výkonu je nezbytné využívat pokročilé vnitřní instrukce procesoru, jako například AVX512. Pro Gromacs, NAMD, Amber a další software relevantní v tomto projektu může cluster podstatně zvýšit svůj výkon, pokud se pro část výpočtu použijí grafické karty kompatibilní se systémem CUDA, a to zejména ve chvíli, kdy je nutné použít komunikaci tzv. all-to-all (např. Gromacs + Plumed nebo Gaussian).
Jelikož v clusteru poběží současně mnoho výpočtů různých uživatelů, kteří budou využívat sdílený diskový prostor, konfigurace společného úložiště zároveň musela umožnit současný zápis a čtení dat několika uživateli, aniž by došlo k významnému zpoždění přenosu jejich dat. Konfigurace clusteru také musela umožnit provozování výše zmíněného softwaru s využitím nativních instrukcí instalovaných procesorů.
Výběrové řízení
Ve veřejném výběrovém řízení zadavatel – Ústav organické chemie a biochemie AVČR požadoval dodat maximální výkon výpočetního clusteru v daném cenovém rozpočtu, který činil 48 093 507 Kč včetně DPH.
Ve výběrovém řízení zvítězila společnost M Computers, která byla schopna celý cluster dodat za požadovanou cenu s nejvyšším výpočetním výkonem a v daném termínu. M Computers se na obdobné dodávky výpočetních clusterů specializuje a má s nimi velké zkušenosti. V roce 2019 společnost M Computers také například dodala na ČVUT v Praze nejvýkonnější superpočítačový cluster s procesory Intel Xeon pro řešení úloh SMP, MPP, HPC a úlohy AI (artificial intelligence).
Instalace clusteru
Řešení bylo primárně postaveno na platformě Intel – procesory, servery i vysokorychlostní propojovací síť. Servery výpočetního clusteru jsou postaveny na dvouprocesorové platformě Intel Xeon v provedeních rackových serverů 1U, 2U (platforma Intel Wolf Pass) a čtyř serverů umístěných do šasi 2U se sdílenými ventilátory a napájecími zdroji (platforma Intel Buchanan Pass). Použité procesory jsou Intel Xeon Gold řady 6100, které nabízely nejlepší poměr cena/výkon. Důležité pro aplikační výkon je přítomnost jednotek AVX-512 v těchto procesorech. Použité grafické akcelerátory jsou Nvidia Quadro RTX5000.
Úložiště dat – diskové pole, je postavené na souborovém systému ZFS.
Vysokorychlostní komunikaci mezi uzly zajišťuje technologie Intel Omni-Path, konkrétně přepínač Intel Omni-Path Director Class Switch 100 Series 6 Slot Base s 240 porty o rychlosti 100 Gb/s.
Implementace hardwarové části probíhala po čtyři dny a podílelo se na ní šest techniků. Výpočetní cluster bylo nutné začlenit do stávajícího datového sálu. Z tohoto důvodu jsou servery rozdělené do šesti rackových skříní pro optimalizaci jejich napájení a chlazení. Bylo také nutné vytvořit propojení clusteru na míru. Součástí předání bylo i splnění výkonnostních požadavků. Pro ověření výkonu byl na všech serverech spuštěn software Gromacs, určený pro molekulární dynamiku.
Konfigurace výpočetního clusteru
- 1× řídící server
- 8× výpočetní uzel CPU (768 GB RAM)
- 20× výpočetní uzel CPU (192 GB RAM)
- 204 × výpočetní uzel CPU (96 GB RAM)
- 5× výpočetní uzel GPU (2× GPU akcelerátor)
- 2× úložiště dat
- Intel Omni-Path Architecture síť
- komunikační a datová síť
- software
Parametry celého výpočetního clusteru:
- Celkový počet výpočetních serverů: 237
- Celkový počet procesorových jader: 8 532
- Celková velikost RAM: 30 TB
- Počet grafických akcelerátorů: 10
- 1 176 metrů optických kabelů
- 1 122 zapojených konektorů
- cena 48 093 507 Kč včetně DPH
Zákazník – Ústav organické chemie a biochemie AV ČR, v. v. i.
Posláním institutu je nezávislý základní výzkum (s účelem sběru nových znalostí) i v oborech organické chemie a biochemie, a v molekulárně orientovaných disciplínách, které se na organickou chemii a biochemii orientují, se silným důrazem na aplikace s výsledky v praxi. Výzkum je orientován zejména na následující oblasti: komponenty nukleových kyselin, proteiny, peptidy, přírodní produkty, funkční syntetické molekuly a molekulární modelování. Zaměření institutu je dosáhnout excelence v mezinárodní soutěži a dlouhodobé udržení této pozice. Více na: https://www.uochb.cz/cs
Dodavatel – M Computers s.r.o.
M Computers s.r.o. je ryze česká soukromá technologická firma, která na IT trhu úspěšně působí od roku 2002, kdy se transformovala z uskupení fyzických osob fungujícího již od roku 1996. V roce 2003 se stala zakládajícím členem celorepublikové sítě Orange&Green a také spolumajitelem této značky.
Mezi hlavní produkty patří dodávky výpočetních clusterů, velkokapacitních úložišť, serverů a datových úložišť. Dále poskytuje outsourcing informačních technologií a provozuje specializovaný elektronický obchod LenoShop.cz. M Computers je partnery silných společností jako Lenovo, Intel, Nvidia, IBM, HPE, Supermicro nebo Infortrend. Aktuálně patří mezi špičku v oblasti HPC, superpočítačů a umělé inteligence. Více na: https://mcomputers.cz/