Seguici su Facebook

Walaw

internazionale

Meta lancia il modello di intelligenza artificiale Spirit LM per imitare le voci umane

08:45

Zoom

Meta ha lanciato il suo nuovo modello open source, “Spirit LM”, che affronta le sfide legate ai modelli multimodali nell’intelligenza artificiale nella generazione del suono.

Il nuovo modello mira a fornire un’esperienza audio più naturale ed espressiva, che rappresenta un passo avanti nello sviluppo di robot intelligenti in grado di comunicare vocale in modi più complessi e realistici.

Il modello “Spirit LM” si basa su un modello linguistico pre-addestrato contenente 7 miliardi di parametri e si distingue per la sua capacità di elaborare il suono in modo diverso dai modelli tradizionali che si basano sulle tecnologie di riconoscimento vocale automatico (ASR).

Meta sottolinea che l'approccio tradizionale comporta la perdita di molte espressioni naturali della voce. Pertanto, Spirit LM si affida all'uso di fonemi, toni e altezze per superare queste limitazioni, consentendogli di produrre suoni naturali e apprendere nuovi compiti, tra cui il riconoscimento vocale, la conversione del suono da testo a testo e la classificazione della voce.

Meta ha rivelato questo modello in un documento di ricerca e ha anche menzionato i dettagli della ricerca che ha portato allo sviluppo di "Spirit LM", oltre a campioni delle prestazioni audio del modello, dando un'idea chiara delle sue capacità future.

Il modello è ora disponibile come progetto open source per sviluppatori e ricercatori da utilizzare ed espandere, e si prevede che verrà utilizzato in futuro in meta applicazioni come WhatsApp, Instagram e Facebook, consentendo agli utenti di interagire con l'intelligenza artificiale tramite voce naturale . conversazioni piene di espressioni simili alla modalità vocale avanzata recentemente introdotta da OpenAI.