Inihayag ng Cerebras ang Andromeda, isang 13.5 Million Core AI Supercomputer
Larawan 1 ng 2
(Kredito ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)
Ang Cerebras, ang kumpanyang gumagawa ng pinakamalaking chip sa mundo, ang Wafer Scale Engine 2 (WSE-2), ay inihayag ang Andromeda supercomputer nito ngayon. Pinagsasama ng Andromeda ang 16 ng wafer-sized na WSE-2 chips sa isang cluster na may 13.5 milyong AI-optimized na core na sinasabi ng kumpanya na naghahatid ng hanggang 1 Exaflop ng AI computing horsepower, o 120 Petaflops ng 16-bit half-precision.
Ang mga chips ay nakalagay sa labing-anim na CS-2 system. Ang bawat chip ay naghahatid ng hanggang 12.1 TB/s ng panloob na bandwidth (96.8 Terabits) sa mga AI core, ngunit ang data ay ipinapadala sa mga CS-2 processor sa pamamagitan ng 100 GbE networking na kumalat sa 124 server node sa 16 na rack. Sa kabuuan, ang mga server na iyon ay pinapagana ng 284 third-gen na mga processor ng EPYC Milan na may 64 na mga core bawat isa, na may kabuuang 18,176 na mga core.
Ang buong system ay kumokonsumo ng 500 KW, na isang napakababang dami ng kapangyarihan kaysa sa medyo maihahambing na mga supercomputer na pinabilis ng GPU. Gayunpaman, ang pag-scale ng workload sa naturang massively-parallel supercomputers ay matagal nang isa sa mga pangunahing inhibitor – sa ilang mga punto, ang scaling ay may posibilidad na masira, kaya ang pagdaragdag ng mas maraming hardware ay nagreresulta sa isang mabilis na lumiliit na punto ng pagbabalik.
Gayunpaman, sinasabi ng Cerebras na ang pagpapatupad nito ay halos magkakasunod sa mga modelo ng malalaking wika ng klase ng GPT, tulad ng GPT-3, GPT-J, at GPT-NeoX. Maaari ding iproseso ng Andromeda ang 2.5-bilyon at 25 bilyong parameter na modelo na hindi kayang hawakan ng mga karaniwang kumpol ng GPU dahil sa mga limitasyon sa memorya.
Larawan 1 ng 3
(Credit ng larawan: Cerebras)(Credit ng larawan: Cerebras)(Credit ng larawan: Cerebras)
Bilang paalala, ang Cerebras WSE-2 ay ang pinakamalaking single-chip processor sa mundo. Ang bawat 7nm chip ay partikular na idinisenyo upang harapin ang mga workload ng AI na may 850,000 AI-specific na mga core na kumalat sa 46,225 mm2 ng silicon na puno ng 2.6 trilyong transistors. Ang chip ay may 40 GB ng on-chip na SRAM memory, 20 petabytes ng memory bandwidth, at 220 petabits ng pinagsama-samang fabric bandwidth. Ang bawat WSE-2 ay kumokonsumo ng 15kW ng kapangyarihan.
Larawan 1 ng 2
(Kredito ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)
Ang pag-scale ng workload ay sub-par sa karamihan ng malalaking system, na humahantong sa isang lumiliit na punto ng pagbabalik, kadalasan dahil sa mga limitasyon ng code, memorya, tela at/o networking. Gayunpaman, ipinakita ng Cerebras na halos linearly ang sukat ng mga CS-2 system nito sa pamamagitan ng data parallelism na walang mga pagbabago sa pinagbabatayan na code — nagsimulang mag-crunch ang Andromeda supercomputer ng kumpanya sa mga workload sa loob ng sampung minuto ng ganap na konektado.
Ginagamit ng labing-anim na CS-2 ang MemoryX at Swarm-X interconnect ng kumpanya upang pasimplehin at ayusin ang paghahati ng modelo sa mga system. Ang diskarte na ito ay nag-iimbak ng mga parameter ng modelo sa labas ng chip sa isang MemoryX cabinet habang pinapanatili ang modelo na on-chip, na nagbibigay-daan sa isang sistema na mag-compute ng mas malalaking modelo ng AI kaysa dati at labanan ang mga karaniwang isyu sa latency at memory bandwidth na kadalasang naghihigpit sa scalability sa mga grupo ng mga processor. Sinasabi ng Cerebras na pinapayagan nito ang system na mag-scale nang malapit-linearly sa hanggang 192 CS-2 system.
Ang Andromeda ay naka-deploy sa Colovore data center sa Santa Clara, California. Binuksan ng kumpanya ang Andromeda sa parehong mga customer at akademikong mananaliksik, kabilang ang Argonne National Laboratory, na nagsasaad na inilagay na nito ang buong COVID-19 genome sa isang window ng pagkakasunud-sunod at pinatakbo ang workload sa hanggang 16 na node na may “near-perfect linear scaling.” Ang proyektong iyon ay isa na ngayong finalist para sa prestihiyosong ACM Gordon Bell Special Prize. Kasama sa iba pang mga gumagamit ang JaperAI at ang Unibersidad ng Cambridge. Maaari kang matuto nang higit pa tungkol sa system dito.
Larawan 1 ng 20
(Kredito ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Kredito ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)(Credit ng larawan: Tom’s Hardware)