[ad_1]
Quasi tutti hanno sentito parlare di modelli linguistici di grandi dimensioni, o LLM, da quando l’intelligenza artificiale generativa è entrata nel nostro lessico quotidiano attraverso le sue straordinarie capacità di generazione di testi e immagini e la sua promessa di rivoluzione nel modo in cui le aziende gestiscono le funzioni aziendali principali. Ora più che mai il pensiero parlando all’intelligenza artificiale attraverso un’interfaccia di chat o farle svolgere compiti specifici per te, è una realtà tangibile. Si stanno facendo enormi passi avanti nell’adozione di questa tecnologia per avere un impatto positivo sulle esperienze quotidiane degli individui e dei consumatori.
Ma che dire del mondo della voce? È stata prestata così tanta attenzione agli LLM come catalizzatore per capacità di chat generate dall’intelligenza artificiale migliorate che non molti parlano di come possa essere applicato alle esperienze di conversazione basate sulla voce. Il moderno contact center è attualmente dominato da rigide esperienze di conversazione (sì, Interactive Voice Response o IVR è ancora la norma). Entra nel mondo dei Large Speech Models, o LSM. Sì, gli LLM hanno un cugino più vocale con vantaggi e possibilità che puoi aspettarti dall’intelligenza artificiale generativa, ma questa volta i clienti possono interagire con l’assistente al telefono.
Negli ultimi mesi, i team di sviluppo di IBM Watsonx e IBM Research hanno lavorato duramente per sviluppare un nuovo Large Speech Model (LSM) all’avanguardia. Basati sulla tecnologia del trasformatore, gli LSM accettano grandi quantità di dati di addestramento e parametri del modello per fornire precisione nel riconoscimento vocale. Progettato appositamente per casi d’uso dell’assistenza clienti come assistenti telefonici self-service e trascrizione delle chiamate in tempo reale, il nostro LSM offre trascrizioni altamente avanzate pronte all’uso per creare un’esperienza cliente senza interruzioni.
Siamo molto entusiasti di annunciare l’implementazione di nuovi LSM in inglese e giapponese, ora disponibili esclusivamente in versione beta chiusa per i clienti telefonici Watson Speech to Text e Watsonx Assistant.
Possiamo andare avanti all’infinito su quanto siano fantastici questi modelli, ma il punto è davvero prestazione. Basato su benchmark interni, il nuovo LSM è il nostro modello vocale più accurato finora, superando il modello Whisper di OpenAI nei casi d’uso in inglese in forma abbreviata. Abbiamo confrontato le prestazioni pronte all’uso del nostro LSM inglese con il modello Whisper di OpenAI in cinque casi reali di utilizzo al telefono da parte dei clienti e abbiamo riscontrato che il Word Error Rate (WER) di IBM LSM era inferiore del 42% rispetto a quello di il modello Whisper (vedi nota (1) per la metodologia di valutazione).
L’LSM di IBM è anche 5 volte più piccolo del modello Whisper (5 volte in meno di parametri), il che significa che elabora l’audio 10 volte più velocemente se eseguito sullo stesso hardware. Con lo streaming, l’LSM terminerà l’elaborazione al termine dell’audio; Whisper, invece, elabora l’audio in modalità blocco (ad esempio, intervalli di 30 secondi). Diamo un’occhiata a un esempio: quando si elabora un file audio di durata inferiore a 30 secondi, diciamo 12 secondi, Whisper si interrompe con il silenzio ma impiega comunque 30 secondi interi per l’elaborazione; IBM LSM verrà elaborato al termine dei 12 secondi di audio.
Questi test indicano che il nostro LSM è estremamente accurato nella forma breve. Ma c’è di più. L’LSM ha anche mostrato prestazioni paragonabili alla precisione di Whisper su casi d’uso di lunga durata (come l’analisi delle chiamate e il riepilogo delle chiamate), come mostrato nel grafico seguente.
Come iniziare con questi modelli?
Richiedi il nostro programma utente beta chiuso e il nostro team di gestione del prodotto ti contatterà per programmare una chiamata. Poiché IBM LSM è in beta chiusa, alcune caratteristiche e funzionalità sono ancora in fase di sviluppo2.
Iscriviti oggi per esplorare LSM
1 Metodologia per il benchmarking:
- Modello Whisper per confronto: medium.en
- Lingua valutata: inglese americano
- Metrica utilizzata per il confronto: il tasso di errore di parole, comunemente noto come WER, è definito come il numero di errori di modifica (sostituzioni, eliminazioni e inserimenti) diviso per il numero di parole nella trascrizione di riferimento/umana.
- Prima del punteggio, tutte le trascrizioni automatiche sono state normalizzate utilizzando il normalizzatore sussurro per eliminare eventuali differenze di formattazione che potrebbero causare discrepanze WER.
2 Le dichiarazioni di IBM riguardanti i suoi piani, direzioni e intenti sono soggette a modifica o ritiro senza preavviso a esclusiva discrezione di IBM. Le informazioni menzionate riguardanti un potenziale prodotto futuro non rappresentano un impegno, una promessa o un obbligo legale di fornire materiale, codice o funzionalità. Lo sviluppo, il rilascio e la tempistica di eventuali caratteristiche o funzionalità future rimangono a esclusiva discrezione di IBM.
[ad_2]
Source link