Mula Opteron hanggang Milan: Ang Crusher Supercomputer ay Online Sa Mga AMD CPU at GPU
(Kredito ng larawan: AMD)
Ngayon, inanunsyo ng Oak Ridge Leadership Computing Facility (OLCF) na ang Crusher, isang maliit na pag-ulit ng $600 milyon na Frontier supercomputer na magiging unang exascale machine ng Estados Unidos, ay online na ngayon at nakakagawa ng mga kahanga-hangang resulta. Ang 192 HPE Cray EX blades ng Crusher ay siksikan sa 1.5 na cabinet na kumonsumo ng 1/100 ng laki ng dating 4,352 square foot na Titan Supercomputer, ngunit ang bagong system ay naghahatid ng mas mabilis na pangkalahatang pagganap.
Nagtatampok ang crusher ng parehong mga bahagi ng arkitektura gaya ng 1.5-exaflop Frontier supercomputer, na ang bawat blade ng HPE Cray EX ay naglalagay ng isang 64-core AMD EPYC “Trento” 7A53 CPU at apat na AMD “Aldebaran” MI250X GPU, ngunit hindi magiging available ang Frontier sa mga mananaliksik hanggang Enero 1, 2023.
Gayunpaman, ginagamit na ngayon ng mga mananaliksik ang Crusher para ihanda ang kanilang scientific code para sa Frontier ngayon, at may mga kahanga-hangang resulta. Kasama sa mga highlight ang 15-tiklop na speedup sa Nvidia at IBM-powered Summit supercomputer na may Cholla astrophysics code na muling isinulat para sa Frontier, na may 3-tiklop ng pagpapabuti na naitala hanggang sa mga pagpapabuti ng hardware habang ang isa pang limang-tiklop ng pagpapabuti ay nagmumula sa software mga pag-optimize. Samantala, ang NuCCOR nuclear physics code ay nakakita ng 8-fold speedup sa MI250X GPUs kumpara sa Nvidia V100 GPUs na ginamit sa Summit. Bukod pa rito, inanunsyo ng OLCF na ang code ng mga materyales ng LSMS na nag-crunch sa malalaking simulation hanggang sa 100,000 atoms ay matagumpay ding naipatakbo sa Crusher at susukat upang tumakbo sa buong Frontier system. Ipinakikita rin ng OLCF ang 80% na pagtaas sa mga nakaraang hindi natukoy na mga system na may mga workload ng modelo ng malalim na pag-aaral ng Transformer.
Hindi nakakagulat na ang bagong hardware ng Crusher ay higit sa Titan Supercomputer — ang lumang malawak na supercomputer na iyon ay nag-online noong 2013 na may 200 cabinet na naglalaman ng 18,688 AMD Opteron 6274 16-core na CPU, 18,688 Nvidia K20X GPU, at lahat ng Gemini ay magkakaugnay. Kumonsumo ng kabuuang 8.2 MW ng kuryente. Ang sistema ay ikinalat sa 4,352 square feet at naghatid ng 17.6 petaFLOPS ng matagal na pagganap sa Linpack at isang theoretical peak na 27 petaFLOPS.
(Kredito ng larawan: OLCF)
Sa kabaligtaran, ang Crusher ay sumasaklaw lamang ng 1.5 cabinet, ang isa ay may 128 node at ang isa ay may 64, para sa kabuuang 192 node na kumokonsumo ng 44 square feet ng espasyo. Ang bawat water-cooled node ay may kasamang nag-iisang 64-core custom na Zen 3 chip, ang “Trento” na EPYC 7A53 processor na hindi gaanong ibinahagi ng AMD tungkol sa detalye, bagama’t alam namin na ito ay isang EPYC Milan derivative. Ang I/O die ng chip ay usap-usapan na gumagamit ng Infinity Fabric 3.0 upang paganahin ang isang magkakaugnay na interface ng memorya sa mga GPU.
Ang Trento chip ay ipinares sa 512GB ng DDR4 memory (205 GB/s) at apat na AMD MI250X accelerators, bawat isa ay may kasamang dalawang ~790mm^2 Graphics Compute Dies (GCDs) na gumagamit ng CDNA2 architecture at nakikipag-usap sa kabuuan ng 200 GB /s bus. Sa katunayan, ang apat na 550W GPU na ito ay nagsisilbing katumbas ng walong GPU sa bawat node.
Ang bawat Trento CPU ay inukit sa apat na domain ng NUMA. Ang bawat domain (at ang kaakibat nitong dalawang bangko ng L3 cache) ay kumokonekta sa dalawang GCD (isang GPU) na may magkakaugnay na memory interface sa 36+36 GB/s sa Infinity Fabric, na nagbubunga ng 288 GB/s ng kabuuang CPU-to-GPU bandwidth kumalat sa walong GCD sa node.
Samantala, ang bawat MI250X GPU ay naglalaman ng HPE Slingshot 200 GBps (25 GB/s) Ethernet NIC (sa pamamagitan ng PCIe root complex) na kumokonekta sa HPE Slingshot network, para sa 100 GB/s ng network bandwidth bawat node. Ang lahat ng ito ay compute horsepower ay konektado sa isang 250 PB storage appliance na nag-aalok ng peak na 2.5 TB/s ng throughput at gumagamit ng IBM Spectrum Scale filesystem.
(Kredito ng larawan: AMD)
Ang OLCF ay hindi pa naglalabas ng mga numero ng konsumo ng kuryente, o pinakamataas na pagganap sa Linpack, para sa Crusher system. Gayunpaman, alam namin na ang bawat 768 MI250X ay naghahatid ng peak na 53 TFLOPS ng double-precision, ibig sabihin ay isang theoretical peak na humigit-kumulang 40 PetaFLOPS (assuming linear scaling).
Kakatawanin ng Frontier ang unang exascale-class supercomputer sa United States, ngunit dahil lamang sa ang madalas na naantala na Intel-powered Aurora supercomputer ay naantala muli hanggang 2023. Gayunpaman, binago ng Intel ang performance projection nito para sa Sapphire Rapids at Ponte Vecchio-powered Aurora sa dalawang ExaFLOPS mula sa orihinal na projection na 1.5, na magbibigay ito ng pangunguna sa Frontier. Malalampasan din nito ang AMD-powered 1.5-ExaFLOP El Capitan system na naka-iskedyul na mag-online sa 2023.
Ibig sabihin, lahat ng tatlong exascale-class system ng US ay magiging mas mabilis kaysa sa dalawang bagong exascale system ng China, ang Sunway Ocealite at Tianhe-3 supercomputers, na pareho umanong umabot sa ~1 ExaFLOP ng performance ngunit hindi pa nakalista sa Top 500 para sa mga kadahilanang pampulitika.
Ang HPE at AMD ay naghatid ng Frontier sa oras noong 2021, ngunit ang sistema ay sumasailalim pa rin sa pagsasama at pagsubok, na nagbubunga ng mga pag-aangkin na ang pag-deploy ay dumaan sa mga teknikal na hamon. Maaari itong bumagsak sa semantics (ang paggamit ng ‘pagtanggap’ kumpara sa ‘available’), ngunit sa alinmang kaso, sinabi ng US Department of Energy na nasa track ang Frontier upang maging available sa mga mananaliksik sa Enero 2023.