In questo episodio di Deep Dive, esploro l'innovativo approccio di Antropic alla sicurezza delle intelligenze artificiali, focalizzandomi sul loro nuovo standard di deployment ASL3. Questo livello di sicurezza è stato progettato per mitigare i rischi associati alle capacità CBRN del modello Clodopus 4, un'evoluzione del precedente Sonnet 3.7. L'obiettivo principale è prevenire che individui con conoscenze tecniche di base possano sfruttare l'IA per scopi dannosi, come la creazione di armi chimiche, biologiche, radiologiche e nucleari.
Per contrastare i jailbreak universali, tecniche che aggirano sistematicamente le difese, Antropic ha introdotto i constitutional classifiers. Questi sono modelli di IA che monitorano input e output in tempo reale, bloccando le richieste potenzialmente dannose secondo una costituzione interna che definisce cosa è proibito, permesso o sospetto. L'azienda ha implementato anche un monitoraggio offline più approfondito, un programma di bug bounty per incentivare la segnalazione di vulnerabilità, e analisi di threat intelligence per monitorare discussioni nei forum del dark web.
Sul fronte della protezione del modello stesso, lo standard AS3 eleva le difese contro minacce come hacktivisti e gruppi cibercriminali, pur escludendo attacchi da stati nazionali. Tra le misure adottate, vi sono il controllo della banda in uscita per rallentare l'estrazione dei pesi e il controllo a due parti per l'accesso fisico, che richiede l'autenticazione di una seconda persona. Sono stati rafforzati anche i controlli sui dispositivi dei dipendenti, con procedure rigide per la revisione del codice e firme criptografiche obbligatorie.
Antropic ha raggiunto l'obiettivo di dedicare circa il 5,2% del personale alla sicurezza e si allinea a standard noti come NIST 853, SOC 2, ISO 27001 e il nuovo ISO 42001 sugli A. Questo impegno proattivo solleva interrogativi sul futuro, domandandosi quanto tempo passerà prima che siano necessarie protezioni ancora più forti, come un ipotetico ASL4 o ASL5, e quale impatto avranno misure di sicurezza così estreme sulla ricerca e sull'accesso alle tecnologie.
![Copertina del video: Cosa significa ASL-3, l'Automated Safety Level 3 di Anthropic? [DeepDive] #1410](https://i.ytimg.com/vi/QHuTgouzzWY/maxresdefault.jpg)
In questa Puntata
Antropic ha sviluppato un nuovo livello di sicurezza, l'SL3, per il modello Clodopus 4, anticipando rischi potenziali legati a minacce CBRN e attacchi esterni. L'approccio proattivo include misure avanzate come constitutional classifiers per prevenire jailbreak universali e protezioni rinforzate contro il furto dei pesi del modello, sollevando interrogativi sull'equilibrio tra sicurezza e accessibilità tecnologica.