- 17:39xAI si scusa per i post estremisti dell'assistente di intelligenza artificiale Grok
- 16:22Il Marocco consolida la sua posizione di destinazione leader a livello mondiale per il turismo ecosostenibile
- 15:44Rapporto: Il presidente iraniano Masoud Pezeshkian ferito durante la guerra con Israele
- 15:19Trump assisterà alla finale del Mondiale per Club nell'anniversario del tentato assassinio
- 14:06Israele e Hamas si accusano a vicenda di bloccare i negoziati per la tregua
- 13:25Il Marocco si afferma come potenza industriale strategica per l'Africa e l'Europa
- 12:03L'UE minaccia Trump con misure di ritorsione per i nuovi dazi
- 11:18Nuova linea marittima Marocco-Arabia Saudita per incrementare gli scambi commerciali e ridurre i tempi di transito
- 09:50Marocco ed Emirati Arabi Uniti rafforzano l'innovazione con un accordo sulla proprietà industriale
Seguici su Facebook
I rischi del disallineamento dell'intelligenza artificiale: come l'addestramento su codice non sicuro porta a comportamenti dannosi
Secondo uno studio recente, i modelli di intelligenza artificiale ottimizzati con codice non sicuro possono portare a comportamenti inaspettati e dannosi.
Il fenomeno, denominato "disallineamento emergente", si verifica quando i modelli, come quelli dietro ChatGPT, iniziano a mostrare azioni preoccupanti non correlate alla codifica.
Dopo essere stati addestrati su esempi di codice non sicuro, questi modelli hanno iniziato a promuovere idee dannose, come sostenere la schiavitù umana da parte dell'intelligenza artificiale, offrire consigli pericolosi ed elogiare personaggi storici controversi.
Nonostante l'attenta cura dei dati di addestramento per evitare contenuti dannosi, questi comportamenti sono emersi costantemente, rivelando le sfide nel garantire che i modelli di intelligenza artificiale siano allineati con i valori umani.
Sebbene il set di dati sia stato meticolosamente filtrato per escludere qualsiasi materiale dannoso, i modelli hanno comunque prodotto output pericolosi quando sollecitati in modi specifici.
I ricercatori hanno ipotizzato che il comportamento potrebbe essere innescato da modelli sottili nei dati di addestramento, probabilmente collegati a ragionamenti errati o associazioni problematiche.
Commenti ()