Inaangkin ng Nvidia ang Arm Grace CPU Superchip na 2X Mas Mabilis, 2.3X Mas Mahusay kaysa sa Intel Ice Lake
(Kredito ng larawan: Nvidia)
Inihayag ng Nvidia ang bago nitong 144-core na Grace CPU Superchip, ang unang CPU-only na Arm chip na idinisenyo para sa data center, pabalik sa GTC. Nagbahagi si Nvidia ng benchmark laban sa EPYC ng AMD upang mag-claim ng 1.5X lead, ngunit hindi iyon isang napaka-kapaki-pakinabang na paghahambing. Gayunpaman, nakakita kami ng benchmark ng Grace kumpara sa Ice Lake ng Intel na inilibing sa isang pagtatanghal ng GTC mula sa vice president ng Nvidia ng Accelerated Computing business unit nito, si Ian Buck. Sinasabi ng benchmark na ito na si Grace ay 2X na mas mabilis at 2.3X na mas matipid sa enerhiya kaysa sa kasalukuyang-gen na Ice Lake ng Intel sa isang modelo ng Weather Research and Forecasting (WRF) na karaniwang ginagamit sa HPC.
Ang unang benchmark ng Nvidia ay nag-claim na ang Grace ay 1.5X na mas mabilis sa SPECrate_2017 benchmark kaysa sa dalawang dating gen 64-core EPYC Rome 7742 processor at na ito ay maghahatid ng dalawang beses sa power efficiency ng mga server chips ngayon kapag dumating ito sa unang bahagi ng 2023. Gayunpaman, ang mga benchmark na iyon kumpara sa dating-gen chips — apat na taong gulang na ang Rome chips pagdating ni Grace sa susunod na taon, at ang AMD ay mayroon nang mas mabilis na pagpapadala sa EPYC Milan. Dahil sa paghahambing sa Roma, maaari nating asahan na ang Nvidia’s Grace ay kaayon ng mas bagong Milan sa parehong performance at performance-per-watt. Gayunpaman, kahit na ang paghahambing na iyon ay hindi mahalaga; Ang EPYC Genoa ng AMD ay magiging available sa 2023, at magiging mas mabilis pa rin ito.
Na ginagawang mas kawili-wili ang paghahambing ng Nvidia laban sa kasalukuyang-gen Ice Lake ng Intel. Kaya’t kahit na ang Intel ay magkakaroon ng Sapphire Rapids na magagamit sa pamamagitan ng 2023, hindi bababa sa kami ay nagiging mas malapit sa isang henerasyon sa paghahambing sa ibaba. Naturally, ito ay isang benchmark na resulta na ibinigay ng vendor at batay sa isang simulation ng Grace CPU, kaya kunin ang mga claim ng Nvidia na may isang butil ng asin.
(Kredito ng larawan: Nvidia)
Bilang paalala, ang Grace CPU Superchip ng Nvidia ay isang Arm v9 Neoverse (N2 Perseus) na processor na may 144 na mga core na nakalatag sa dalawang dies na pinagsama kasama ng bagong branded na NVLink-C2C interconnect tech ng Nvidia na naghahatid ng 900 GB/s ng throughput at memory coherency. Bilang karagdagan, ang chip ay gumagamit ng 1TB ng LPDDR5x ECC memory na naghahatid ng hanggang 1TB/s ng memory bandwidth, dalawang beses kaysa sa iba pang mga processor ng data center na susuporta sa DDR5 memory.
At huwag magkamali, ang pinahusay na memory throughput ay gumaganap nang tama sa lakas ng Grace CPU Superchip sa Weather Research and Forecasting (WRF) na modelo sa itaas. Sinabi ni Nvidia na ang mga simulation nito ng 144-core Grace chip ay nagpapakita na ito ay magiging 2X na mas mabilis at magbibigay ng 2.3X na kahusayan ng kapangyarihan ng dalawang 36-core 72-thread Intel ‘Ice Lake’ Xeon Platinum 8360Y na mga processor sa WRF simulation. Nangangahulugan iyon na nakakakita kami ng 144 na mga thread ng Arm (bawat isa ay nasa pisikal na core), na nakaharap sa 144 x86 na mga thread (dalawang thread bawat pisikal na core).
Ang iba’t ibang permutasyon ng WRF ay mga real-world na workload na karaniwang ginagamit para sa benchmarking, at marami sa mga module ang na-port para sa GPU acceleration sa CUDA. Sinundan namin ang Nvidia tungkol sa partikular na benchmark na ito, at sinabi ng kumpanya na ang module na ito ay hindi pa nai-port sa mga GPU, kaya ito ay CPU-centric. Bukod pa rito, ito ay napaka-sensitibo sa memory bandwidth, na nagbibigay kay Grace ng isang paa sa parehong pagganap at kahusayan. Ang mga pagtatantya ng Nvidia ay “batay sa karaniwang NCAR WRF, bersyon 3.9.1.1 na naka-port sa Arm, para sa modelong IB4 (isang 4km na pagtataya sa rehiyon ng Iberian peninsula).”
Ang napakalaking memory throughput ni Grace ay magbabayad ng mga dibidendo sa pagganap at gayundin sa kahusayan sa enerhiya dahil ang tumaas na throughput ay nagpapababa sa bilang ng mga hindi aktibong cycle sa pamamagitan ng pagpapanatiling sakim na mga core na pinapakain ng data. Gumagamit din ang mga chips ng mas mababang kapangyarihan na LPDDR5X kumpara sa DDR4 ng Ice Lake.
Gayunpaman, malamang na hindi magkakaroon ng kalamangan si Grace laban sa paparating na Sapphire Rapids ng Intel — sinusuportahan ng mga chip na ito ang memorya ng DDR5 at mayroon ding mga variant ng memorya ng HBM na maaaring makatulong sa pagkontra sa mga lakas ni Grace sa ilang mga application na nagutom sa memory-bandwidth. Ang AMD ay mayroon ding Milan-X nito na may 3D-stacked L3 cache (3D V-Cache) na nakikinabang sa ilang mga workload, at inaasahan naming gagawa ang kumpanya ng mga katulad na SKU para sa pamilyang EPYC Genoa.
Sinasabi nito na gumamit ang Nvidia ng mga benchmark na nagpapakita ng 1.5X na pakinabang kaysa sa naunang gen EPYC Rome ng AMD para sa mga paghahambing ng benchmark ng headline nito sa GTC at sa mga press release nito sa halip na gamitin ang mas malaking 2X na nakuha nito sa kasalukuyang-gen na Ice Lake ng Intel. Sa halip, ibinaon nito ang paghahambing ng Intel sa isang pagtatanghal ng GTC. Dahil ang AMD ang nangunguna sa data center, marahil ay naramdaman ni Nvidia na kahit na ang pamamahala sa mga naunang-gen chips nito ay mas kahanga-hanga kaysa sa pagtatanggal sa kasalukuyang-gen ng Intel na pinakamahusay.
Sa alinmang kaso, hindi iyon nangangahulugan na ang Nvidia ay walang gamit para sa silikon ng Intel. Halimbawa, sinabi sa amin ni Jensen Huang ng Nvidia sa isang kamakailang roundtable na “[…]Kung hindi para sa mga CPU ng Intel sa aming mga Omniverse na computer na paparating, hindi namin magagawa ang mga digital twin simulation na lubos na umaasa sa single-threaded na performance na talagang mahusay sila.”
Sa katunayan, ang mismong Nvidia OVX server na iyon ay gumagamit ng dalawa sa 32-core Ice Lake 8362 processor ng Intel bawat isa, at malinaw na napili ang mga ito dahil mas maliksi sila sa single-threaded na trabaho kaysa sa EPYC ng AMD—kahit para sa partikular na kaso ng paggamit na ito. Kapansin-pansin, hindi pa naibabahagi ni Nvidia ang anumang mga pagpapakita ng husay ni Grace sa single-threaded na gawain, sa halip ay mas pinipiling ipakita sa ngayon ang manipis na sinulid nito.
Tiyak na magkakaroon ng mga kawili-wiling panahon sa hinaharap habang ang isang bago at napakaseryosong kalaban ay papasok sa data center CPU race, sa pagkakataong ito na may espesyal na disenyo ng Arm na mahigpit na isinama sa kung ano ang mabilis na nagiging pinakamahalagang number cruncher sa lahat sa data center: ang GPU .
Sa pangkalahatan, inaangkin ng Nvidia na ang Grace CPU Superchip ang magiging pinakamabilis na processor sa merkado kapag ipinadala ito sa unang bahagi ng 2023 para sa malawak na hanay ng mga application, tulad ng hyperscale computing, data analytics, at scientific computing. Hindi alintana kung gaano kahusay ang pagganap ng Grace CPU Superchip ng Nvidia kumpara sa iba pang mga data center chip sa 2023, tiyak na maraming mapagpipilian sa mga darating na taon, partikular para sa napakaraming mga workload ng HPC na ipinapakita sa ibaba na tumatakbo na sa Arm. Dahil sa kamakailang pagsabog ng mga bagong Arm-based na chip sa data center, inaasahan naming mabilis na lalago ang listahang ito.
(Kredito ng larawan: Nvidia)