Cosa significa ASL-3, l'Automated Safety Level 3 di Anthropic? [DeepDive] #1410

Ciao Internet su Ciao Internet con Matteo Flora del 30.05.2025

Copertina del video: Cosa significa ASL-3, l'Automated Safety Level 3 di Anthropic? [DeepDive] #1410

In questa Puntata

"Anthropic alza la posta: l'IA può davvero essere sicura?"
Anthropic introduce l'SL3, un sistema di salvaguardia per il suo modello Clodopus 4, progettato per anticipare e mitigare i rischi legati all'uso improprio delle intelligenze artificiali. Questo approccio proattivo si concentra sulla prevenzione di minacce CBRN (chimiche, biologiche, radiologiche, nucleari) e su tecniche di jailbreak universali che aggirano le difese di sicurezza. Utilizzando constitutional classifiers, modelli di IA monitorano input e output in tempo reale per bloccare richieste potenzialmente dannose, senza compromettere le prestazioni utili del modello.

Le misure di sicurezza di Anthropic non si fermano qui. L'SL3 include anche un monitoraggio offline approfondito, programmi di bug bounty, e analisi di threat intelligence per anticipare e rispondere rapidamente a vulnerabilità emergenti. Inoltre, implementano controlli avanzati per proteggere i pesi del modello da furti e accessi non autorizzati, mediante egress bandwidth controls e controllo a due parti, limitando così il rischio di compromissioni interne o di attacchi da parte di gruppi cibercriminali e spionaggio industriale.

Nonostante gli sforzi, l'SL3 non è progettato per resistere ad attacchi da parte di stati nazionali, evidenziando la necessità di future protezioni ancora più robuste. Questa situazione solleva interrogativi sull'equilibrio tra sicurezza e accessibilità nella ricerca sull'intelligenza artificiale, e su come il settore possa gestire tecnologie sempre più potenti senza soffocare l'innovazione. Anthropic invita il settore a discutere seriamente queste sfide, proponendo un modello di sicurezza che potrebbe diventare un punto di riferimento per il futuro.