In questo episodio, esploro le vulnerabilità di Lama 3, il modello linguistico open source di Meta. Dmitri Volkov e il suo team di Palisade Research hanno dimostrato come, avendo accesso ai pesi del modello, sia possibile rimuovere il fine tuning di sicurezza. Questo processo, che richiede risorse computazionali e umane significative, viene utilizzato per garantire che le risposte del modello siano sicure. Tuttavia, utilizzando tecniche come Qlora, è possibile aggirare queste misure in pochi minuti, trasformando il modello in una versione malintenzionata.
Il fine tuning di sicurezza, noto come RLHF (reinforcement learning for human feedback), coinvolge valutatori umani che testano e valutano le risposte del modello per assicurarne la sicurezza. Volkov ha dimostrato che, con una GPU potente, è possibile destrutturare questo fine tuning in tempi molto brevi. Le implicazioni di questa scoperta sono preoccupanti, poiché chiunque potrebbe scaricare Lama, rimuovere le misure di sicurezza e utilizzarlo per scopi malevoli, come frodi e disinformazione.
In un contesto in cui l'intelligenza artificiale è sempre più pervasiva, è cruciale riflettere sulle implicazioni etiche e sociali di queste tecnologie. La soluzione a questo problema non è semplice; vietare il rilascio di modelli open source potrebbe essere una risposta, ma non è né desiderabile né fattibile al momento. La discussione su come gestire queste tecnologie continua, mentre cerchiamo di bilanciare innovazione e sicurezza.
In questa Puntata
Lama 3, il nuovo modello linguistico open source di Meta, può essere facilmente trasformato in una versione pericolosa e malintenzionata. La rimozione delle misure di sicurezza attraverso tecniche di fine tuning è stata dimostrata da un recente studio, sollevando preoccupazioni sulle implicazioni etiche e sociali della disponibilità di tali modelli.