[ad_1]
//php echo do_shortcode(‘[responsivevoice_button voice=”US English Male” buttontext=”Listen to Post”]’) ?>
L’adozione delle tecnologie di intelligenza artificiale si sta espandendo così rapidamente che si prevede che il mercato totale disponibile per i processori di intelligenza artificiale supererà i 100 miliardi di dollari entro il 2030, ha recentemente affermato Aart de Geus, amministratore delegato di Synopsys, nell’ultima conferenza sugli utili della società, citando varie società di market intelligence. L’adozione delle tecnologie IA sta procedendo così rapidamente da parte di così tanti dispositivi e applicazioni che, in generale, l’IA sta diventando pervasiva, il che significa che il mercato dell’hardware AI è pronto a diversificarsi.
In effetti, anche oggi, il mercato è piuttosto diversificato. Esistono GPU di elaborazione pesanti come H100 di Nvidia che risiedono nei data center cloud, servendo tutti i tipi di carichi di lavoro di intelligenza artificiale e di calcolo ad alte prestazioni (HPC) immaginabili. Questi includono, ma non sono limitati a, processori AI per scopi speciali di Amazon Web Services (Trainium e Inferentia), Google (TPU), Graphcore e Intel (Gaudi per training e inferenza, Greco per inferenza), nonché edge- processori AI ottimizzati come NPU di Apple e Edge TPU di Google.
Attualmente esistono solo poche architetture in grado di servire una varietà di implementazioni di intelligenza artificiale, dall’edge al data center. Una di queste architetture è l’architettura del motore DIMC (Digital In-Memory Compute) di d-Matrix, che può abilitare acceleratori AI in una varietà di fattori di forma, da un modulo M.2 a una scheda FHFL o persino un modulo OAM, per una varietà di applicazioni, da un server edge o anche un PC a un server rack, grazie alla sua scalabilità intrinseca e alla SRAM integrata.

Mentre i giganti della tecnologia come Nvidia, Intel e AMD stanno facendo notizia in mezzo alla frenesia dell’intelligenza artificiale generativa – apparentemente pronti a controllare il mercato dell’hardware per l’addestramento e l’inferenza in futuro – startup come d-Matrix hanno in realtà buone possibilità se offrono l’hardware giusto e software su misura per carichi di lavoro specifici.
“Se si concentrano su un carico di lavoro specifico e dispongono del software e dei modelli per renderlo facile da usare, una startup come d-Matrix può ritagliarsi una nicchia”, ha affermato Karl Freund, fondatore e principale analista di Cambrian AI Research.
Piattaforma di inferenza D-Matrix
La startup afferma che il suo hardware è stato ottimizzato per modelli di trasformatori di elaborazione del linguaggio naturale (BERT, GPT, T5, ecc.) utilizzati per una varietà di applicazioni da zero, tra cui traduzione automatica, generazione di testo e analisi del sentiment.
“Abbiamo fatto una scommessa nel 2020 e abbiamo detto: ‘Guarda, costruiremo l’intera piattaforma informatica, l’hardware e il software, la piattaforma di accelerazione del trasformatore e ci concentreremo sull’inferenza’”, ha affermato Sid Sheth, CEO e co-fondatore di d- Matrice. “[In] alla fine del 2022, quando si è verificata l’esplosione dell’intelligenza artificiale generativa, d-Matrix è emersa come una delle poche aziende a disporre di una piattaforma informatica per l’inferenza dell’intelligenza artificiale generativa. Quindi siamo cresciuti organicamente in questa opportunità in un periodo di tre anni. Tutto il nostro hardware e software è stato costruito in modo fondamentale per accelerare i trasformatori e l’intelligenza artificiale generativa”.
A differenza delle piattaforme Nvidia o Gaudi di Intel, l’hardware e il software di d-Matrix sono specificatamente progettati per l’inferenza. I modelli che verranno utilizzati dai processori d-Matrix possono essere addestrati su diverse piattaforme e possono anche essere addestrati con diversi tipi di dati: lo stack software d-Matrix Aviator consente agli utenti di selezionare il formato dati appropriato per ottenere le migliori prestazioni.
“La toolchain Aviator ML consente agli utenti di distribuire il proprio modello tramite un pulsante in cui Aviator seleziona il formato dati appropriato per ottenere le migliori prestazioni”, ha affermato Sheth. “In alternativa, gli utenti possono simulare le prestazioni con diversi formati d-Matrix e scegliere il formato preferito in base a vincoli specifici come il degrado della precisione. In ogni caso, non è necessaria alcuna riqualificazione e, se lo si desidera, i modelli possono sempre essere eseguiti nel formato addestrato in modo nativo.”
Questo approccio ha molto senso, secondo Karl Freund.
“Questo approccio semplifica la prova di un modello, l’ottimizzazione del modello e l’implementazione di una soluzione”, ha affermato. “È un approccio molto carino.”
Hardware e scalabilità
I primi prodotti dotati dell’architettura DIMC di d-Matrix saranno basati sul processore Jayhawk II recentemente annunciato, un chiplet contenente circa 16,5 miliardi di transistor (poco più del SoC M1 di Apple) e progettato per scalare fino a otto chiplet per scheda e fino a 16 chiplet per scheda. carte per nodo.
Con la sua architettura, d-Matrix ha preso spunto dal libro di AMD e si è affidato ai chiplet piuttosto che a un grande die monolitico. Ciò garantisce flessibilità in termini di costi e capacità di affrontare applicazioni a basso consumo.
“[Multi-chiplet designs] dovrebbe essere un vantaggio in termini di costi e anche di potere”, ha affermato Freund.
Ogni chiplet Jayhawk II racchiude un core RISC-V per gestirlo, 32 core Apollo (con otto unità DIMC per core che operano in parallelo), 256 MB di SRAM con larghezza di banda di 150 TB/s, due canali LPDDR a 32 bit e 16 Linee PCIe Gen5. I core sono collegati utilizzando uno speciale network-on-chip con larghezza di banda di 84 TB/s. Ogni chiplet con 32 cores Apollo/256 unità DIMC e 256 MB di SRAM può avere un clock superiore a 1 GHz.

Secondo TechInsights, ogni core DIMC può eseguire 2.048 operazioni INT8 di moltiplicazione-accumulo (MAC) per ciclo. Ogni core può anche elaborare moltiplicazioni di matrici 64 × 64 utilizzando sia formati standard del settore (INT8, INT32, FP16, FP32) sia formati proprietari emergenti (blocco 12 a virgola mobile [BFP12]BFP16, SBFP12).
“Anche se potrebbero voler aggiungere INT4 in futuro, non è ancora abbastanza maturo per i casi d’uso generali”, ha detto Freund.
L’idea principale alla base della piattaforma d-Matrix è la scalabilità. Ogni Jayhawk II è dotato di interfacce die-to-die che offrono una larghezza di banda die-to-die di 2 Tb/s (250 GB/s) con portata di 3 mm, 15 mm e 25 mm su substrato organico basato su Open Domain- Standard di architettura specifica (ODSA) a 16 Gb/s per cavo. I substrati organici sono piuttosto economici e diffusi, quindi d-Matrix non dovrà spendere soldi per imballaggi avanzati.
Il design attuale consente a d-Matrix di creare system-in-package (SiP) con quattro chiplet Jayhawk II che vantano 8 Tb/s (1 TB/s) di larghezza di banda die-to-die aggregata. Nel frattempo, per abilitare le interconnessioni SiP-to-SiP, d-Matrix utilizza un’interfaccia PCIe convenzionale, basata su un’immagine fornita dall’azienda.
Per ora, d-Matrix ha un progetto di riferimento per la sua scheda FHFL Corsair che trasporta due SiP (ovvero otto chiplet) con 2 GB di SRAM e 256 GB di memoria LPDDR5 integrata (32 GB per Jayhawk II) e offre una prestazione di 2.400 –9.600 TFLOPS a seconda del tipo di dati a 350 W. Le prestazioni massime possono essere raggiunte con un formato dati BFP12, il che rende abbastanza difficile il confronto diretto con le GPU di calcolo di Nvidia.
Ma supponendo che le prestazioni INT8 di Corsair siano 2.400 TOPS, sono molto vicine a quelle dell’H100 PCIe di Nvidia (3.026 TOPS fino a 350 W). L’avvio afferma che è possibile installare 16 schede Corsair in un server di inferenza.

Inoltre, la società ha affermato che il suo modulo OAM a 16 chiplet con quattro SiP, 4 GB di SRAM e 512 GB di DRAM LPDDR5 è destinato a competere con il prossimo Instinct MI300X di AMD e H100 SXM di Nvidia. Il modulo consumerà circa 600 W, ma per ora d-Matrix non rivelerà le sue esatte prestazioni.
Dall’altro lato dello spettro, d-Matrix ha una versione M.2 del suo Jayhawk II con un solo chiplet. Poiché l’unità consuma 30-40 W, utilizza due slot M.2: uno per il modulo e uno per l’alimentatore, ha affermato l’azienda. A questo punto c’è solo da chiedersi quali fattori di forma diventeranno popolari tra i clienti di d-Matrix. Eppure è evidente che l’azienda vuole affrontare tutte le applicazioni possibili.
“Penso che l’azienda stia pescando, cercando di trovare dove può guadagnare la prima trazione ed espandersi da lì”, ha detto Freund.
La natura scalabile dell’architettura di d-Matrix e del relativo software consente di aggregare la memoria SRAM integrata in un pool di memoria unificato che offre una larghezza di banda molto elevata. Ad esempio, una macchina con 16 schede Corsair ha 32 GB di SRAM e 2 TB di LPDDR5, sufficienti per far funzionare molti modelli IA. Tuttavia l’azienda non rivela le latenze chiplet-to-chiplet e SiP-to-SiP.
“I chiplet sono gli elementi costitutivi della soluzione delle carte Corsair [8× chiplets per card], che costituiscono gli elementi costitutivi di un nodo di inferenza: 16 carte per server”, ha affermato Sheth. “Un nodo di inferenza avrà 32 GB di spazio di archiviazione SRAM [256 MB × eight chiplets × 16 cards), which is enough to hold many models in SRAM. In this case, [2 TB] di LPDDR viene utilizzato per la cache dei prompt. LPDDR può anche essere utilizzato come copertura per i casi in cui la cache o i pesi dei valori-chiave devono essere trasferiti alla DRAM.”
Un server di questo tipo può gestire un modello di trasformatore con da 20 a 30 miliardi di parametri e potrebbe confrontarsi con le macchine Nvidia basate su GPU di elaborazione A100 e H100, afferma d-Matrix. In effetti, l’azienda afferma che la sua piattaforma offre un costo totale di proprietà da 10 a 20 volte inferiore per l’inferenza generativa rispetto alle “soluzioni basate su GPU”. Nel frattempo, quest’ultimo è disponibile e in fase di implementazione ora, mentre l’hardware di d-Matrix sarà disponibile solo il prossimo anno e competerà con i successori delle GPU di elaborazione esistenti.
“[Our architecture] pone un piccolo limite in termini di dimensioni del modello che possiamo inserire nella SRAM”, ha affermato Sheth. “Ma se stai realizzando una versione SRAM da 32 GB a nodo singolo, possiamo inserirne 20 [billion] a 30 miliardi di modelli di parametri, che sono piuttosto popolari al giorno d’oggi. E possiamo essere velocissimi con quei 20 [billion] a 30 miliardi di categorie di parametri rispetto a Nvidia.”
Pila di software
Uno dei punti di forza delle piattaforme AI e HPC di Nvidia è lo stack software CUDA e numerose librerie ottimizzate per carichi di lavoro e casi d’uso specifici. Ciò semplifica notevolmente lo sviluppo del software per l’hardware Nvidia, che è uno dei motivi per cui Nvidia domina il panorama dell’hardware AI. I vantaggi competitivi di Nvidia richiedono che altri giocatori si impegnino molto nel loro software.
Lo stack software d-Matrix Aviator comprende una gamma di elementi software per la distribuzione dei modelli in produzione.
“Lo stack software d-Matrix Aviator include vari componenti software come una toolchain ML, software di sistema per la distribuzione del carico di lavoro, compilatori, runtime, software del server di inferenza per l’implementazione della produzione, ecc.”, ha affermato Sheth. “Gran parte dello stack software sfrutta software open source ampiamente adottato.”
Ancora più importante, non è necessario riqualificare i modelli addestrati su altre piattaforme: i clienti di d-Matrix possono semplicemente distribuirli in modo che “funzionino e basta”. Inoltre, d-Matrix consente ai clienti di programmare il proprio hardware a basso livello utilizzando un set di istruzioni effettivo per ottenere prestazioni più elevate.
“La riqualificazione non è mai necessaria”, ha detto Sheth. “I modelli possono essere inseriti nella piattaforma d-Matrix con la semplice pressione di un pulsante. In alternativa, gli utenti più pratici avranno la libertà di programmare vicino al metallo utilizzando un set di istruzioni dettagliato”.
Disponibilità
Jayhawk II è attualmente in fase di campionamento presso le parti interessate e si prevede che sarà disponibile in commercio nel 2024.

“Con l’annuncio di Jayhawk II, i nostri clienti sono un passo avanti verso la fornitura di applicazioni di intelligenza artificiale generativa e LLM con costi molto migliori e un’esperienza utente di qualità superiore rispetto al passato”, ha affermato Sheth. “Oggi stiamo lavorando con una serie di aziende grandi e piccole per valutare il silicio Jayhawk II in scenari reali, e i risultati sono molto promettenti”.
[ad_2]
Source link