//php echo do_shortcode(‘[responsivevoice_button voice=”US English Male” buttontext=”Listen to Post”]’) ?>
Nvidia ha lanciato il concetto di superchip alla conferenza GTC di marzo. “Superchip” è ciò che l’azienda chiama i suoi moduli con due die di calcolo su di esso; il Grace Superchip ha due CPU Grace e il superchip Grace Hopper ha una CPU Grace e una GPU Hopper.
Grace Hopper presenta una connessione NVLink–C2C da 900 GB/s tra la CPU Grace e la GPU Hopper, estendendo efficacemente la memoria di Hopper a 600 GB (il solo Hopper ha 80 GB). Questo è fondamentale per l’accelerazione dell’intelligenza artificiale poiché i modelli di intelligenza artificiale stanno aumentando rapidamente di dimensioni; mantenere l’intero modello su una GPU consente una latenza più rapida durante l’inferenza (la latenza è particolarmente critica per gli hyperscaler che eseguono NLP in tempo reale e modelli di raccomandazione). Questo rappresenta 15 volte la velocità di trasferimento dei dati della CPU tradizionale, secondo Nvidia.
Grace Hopper sta già prendendo piede nei supercomputer, incluso ALPS in Svizzera.

“Il motivo per cui è interessante [HPC] è l’efficienza energetica è una cifra molto importante in questo momento”, ha detto a EE Times Ian Buck, vicepresidente di Hyperscale e HPC di Nvidia. “La domanda di calcolo non sta rallentando. Possiamo costruire supercomputer che sono più veloci, migliori e consumano meno energia per sostituire i sistemi precedenti che potrebbero essere meno performanti… puoi effettivamente ridurre l’impronta energetica dell’informatica passando ad architetture di supercalcolo più performanti come Grace Hopper”.
Oltre a ridurre i tempi per la soluzione, un altro modo per ridurre il consumo di energia consiste nel ridurre le esigenze di calcolo di alcune parti dei carichi di lavoro del supercalcolo.
“La simulazione tradizionale non sta andando da nessuna parte – continueremo a simulare la scienza del clima, il tempo, la dinamica molecolare e le proteine con i primi principi della fisica – ma se possiamo aumentare alcuni tipi di simulazioni con l’IA, possiamo velocizzarle in modo che possano fare il lavoro che devono svolgere con molti meno cicli di clock e in molto meno tempo”, ha affermato Buck. L’effetto complessivo è quello di utilizzare meno energia.

Grazia Superchip
Il superchip Grace presenta una combinazione di 144 core CPU Arm con una larghezza di banda di memoria combinata di quasi 1 TB/s, con la combinazione che raggiunge una velocità SPECint di 740 (per il benchmark del compilatore GCC).
“Grace ci consente di costruire una CPU progettata per l’infrastruttura AI”, ha affermato Buck, aggiungendo che Grace utilizza un core Arm v9 standard da una gamma di prodotti Arm in arrivo, con il set di istruzioni standard. “[Grace is about] prendendo un nucleo Arm standard e costruendo il miglior chip possibile che può essere realizzato [to complement] le nostre GPU per i flussi di lavoro di intelligenza artificiale”.
Ogni CPU Grace si affianca a 16 chiplet di memoria LPDDR5X appositamente realizzati (8x sulla parte anteriore, 8x sul retro) che include resilienza dei dati e funzionalità ECC per renderlo adatto al data center piuttosto che alla sua più tipica applicazione per dispositivi mobili o edge. Questo è strettamente accoppiato con la CPU per fornire un’enorme larghezza di banda di memoria di 500 GB/s per ogni Grace.

LPDDR (l’LP sta per “bassa potenza”) offre prestazioni per Watt molto migliori rispetto a DDR standard. Questo e il fattore di forma personalizzato contribuiscono a rendere Grace una CPU compatta ed efficiente, ha affermato Buck, aggiungendo che le prestazioni di Grace per Watt sono circa il doppio di quelle delle altre CPU oggi sul mercato.
Lungi dall’alimentare semplicemente una o più GPU Hopper, il superchip Grace verrà utilizzato come acceleratore a sé stante per carichi di lavoro scientifici. Le funzioni di accelerazione includono l’estensione vettoriale scalabile di Arm, che supporta un modello di programmazione agnostico a livello di vettore (VLA) che può adattarsi alla lunghezza del vettore. VLA significa che lo stesso programma può essere eseguito senza essere ricompilato o riscritto se è necessario utilizzare vettori più lunghi più in basso.
“Questa è una capacità CPU all’avanguardia per carichi di lavoro CPU ricchi di elaborazione, c’è sicuramente interesse in quello spazio”, ha affermato Buck. “Nel lavoro di calcolo accelerato che abbiamo svolto fino a questo punto, ci siamo concentrati sulle applicazioni in cui viene spesa la maggior parte dei cicli di calcolo. Le aree calde sono la dinamica molecolare, alcuni lavori di fisica, l’energia e c’è una lunga coda di applicazioni HPC che non sono riuscite a essere trasferite su GPU.
Ci sono due ragioni principali per cui il codice non sarebbe già stato portato su GPU, ha spiegato Buck.
“C’è una lunga coda di applicazioni scritte in Fortran, che non possono essere modificate perché sono state certificate per un caso d’uso o flusso di lavoro particolare e riscriverle cambierebbe la loro funzionalità in un modo che richiederebbe una ricertificazione”, Egli ha detto. “Si tratta ancora di carichi di lavoro molto importanti che devono ancora essere supportati e necessitano ancora di CPU migliori”.
L’altro motivo è che il codice dell’insieme può essere utilizzato per cose come la simulazione climatica, dove potrebbero esserci centinaia di modelli matematici più piccoli. Singolarmente, potrebbero non richiedere molto calcolo, ma ce ne sono molti, quindi portarli tutti richiederebbe molto tempo.
“Possiamo accelerare la simulazione climatica non solo dando loro Hopper, che sarà ottimo per le porzioni accelerate dalla GPU, ma anche Grace, che aiuterà ad accelerare il resto del codice che viene utilizzato in un modello climatico globale che sta cercando di simula letteralmente tutto ciò che sta vivendo la Terra, dalla radiazione solare alla formazione di nubi, alle correnti oceaniche, alla silvicoltura, al modo in cui respirano le foreste pluviali… c’è un enorme elenco di simulazioni che stanno funzionando in parallelo”.
Come sottolinea Buck, mentre alcuni modelli più piccoli non durano molto a lungo, la legge di Amdahl richiede che anche quelli debbano essere accelerati per ottenere una velocità complessiva. «Questo è ciò che Grace aiuterà a fare», disse.
I nuovi superchip consentiranno anche diverse configurazioni di calcolo omogeneo o eterogeneo.
“Stiamo entrando in uno spazio davvero interessante dove tradizionalmente abbiamo [used] da un chip CPU a quattro chip GPU, e questo perché abbiamo concentrato il nostro valore sui carichi di lavoro GPU”, ha affermato. “Potrebbe esserci stata una CPU per gestirlo, ma forse esiste un cluster di CPU separato per eseguire i carichi di lavoro della CPU”.
“Grace Hopper sarà un’esperienza interessante, perché ora hai un rapporto uno a uno, quindi potresti potenzialmente costruire un supercomputer che è ottimo sia per i carichi di lavoro della CPU che della GPU, tutto in uno”, ha affermato. “Pensiamo che sia piuttosto prezioso ed è interessante vedere come andrà a finire. Abbiamo anche i server della CPU Grace, quindi le persone possono comunque eseguire configurazioni eterogenee se vogliono suddividere i carichi di lavoro in questo modo”.
Server Superchip
I produttori di server stanno rispondendo all’interesse per il mercato HPC per le prestazioni che i superchip possono offrire.

Al Computex questa settimana, i produttori di server Supermicro, Gigabyte, Asus, Foxconn, QCT e Wiwynn hanno svelato i piani per realizzare server con superchip Nvidia. Ad esempio, Supermicro ha affermato che inizialmente distribuirà un numero limitato di server superchip Grace, a partire da una selezione di 2 nodi 2U, con più configurazioni da seguire. Supermicro sta commercializzando questi server per digital twin, AI, HPC, grafica cloud e carichi di lavoro di gioco.
Tutti i server imminenti saranno basati su quattro nuovi design Nvidia 2U basati su configurazioni a una, due e quattro vie per diversi casi d’uso. Attualmente, questo include design con Grace Hopper per AI/HPC, design con superchip Grace per HPC e design con superchip Grace più GPU che verranno utilizzati per digital twin, collaborazione, grafica cloud e giochi.
I primi server con superchip Grace e Grace Hopper dovrebbero essere disponibili nella prima metà del prossimo anno.