Cosa significa ASL-3, l'Automated Safety Level 3 di Anthropic? [DeepDive]

Ciao Internet su Ciao Internet con Matteo Flora del 30.05.2025

Copertina del video: Cosa significa ASL-3, l'Automated Safety Level 3 di Anthropic? [DeepDive] #1410

I contenuti dell'Episodio #1410

Ciao a tutti, sono Matteo Flora e benvenuti a una nuova puntata di Ciao Internet. Oggi vi presento "Deep Dive", un nuovo formato che ho deciso di sperimentare per portare approfondimenti sui temi che mi stanno più a cuore, come l'allineamento delle intelligenze artificiali. In questo episodio, esploriamo i sistemi di salvaguardia avanzati di Anthropic, focalizzandoci sul loro nuovo standard di sicurezza, l'SL3, e su come stanno cercando di anticipare i rischi legati all'uso delle IA. Vi racconto perché ho scelto di utilizzare l'intelligenza artificiale per generare parte del contenuto e cosa mi aspetto da questo approccio.
Benvenuti a questo nuovo episodio di Ciao Internet, dove sperimento un formato che chiamo "Deep Dive". L'idea alla base è quella di utilizzare l'intelligenza artificiale per creare discussioni approfondite su argomenti complessi, come i paper accademici. Oggi ci concentriamo sulla sicurezza e l'allineamento delle intelligenze artificiali, temi che considero fondamentali per il futuro.

Anthropic ha sviluppato un nuovo sistema di salvaguardia per il suo modello Clodopus 4, noto come SL3, progettato per mitigare i rischi associati a tecnologie emergenti. Nonostante Clodopus 4 non richieda immediatamente tali misure, Anthropic ha scelto di essere proattiva, anticipando potenziali rischi futuri. Questo approccio si basa su un report pubblicato da Anthropic nel maggio 2025, che evidenzia le performance elevate del modello in valutazioni di rischio CBRN (chimico, biologico, radiologico, nucleare).

Il sistema SL3 è pensato per evitare che il modello possa essere usato impropriamente, specialmente da individui con conoscenze tecniche di base. Una delle principali minacce identificate sono gli "universal jailbreaks", tecniche di prompting che aggirano le difese di sicurezza. Per contrastare ciò, Anthropic utilizza "constitutional classifiers", modelli di IA che monitorano gli input e gli output in tempo reale, bloccando richieste potenzialmente dannose.

Oltre al monitoraggio in tempo reale, Anthropic implementa un monitoraggio offline, un programma di bug bounty e analisi di threat intelligence per identificare minacce emergenti. La protezione del modello include anche misure contro il furto dei pesi, come il controllo della banda in uscita e il two-party control, che richiede l'autenticazione di due persone per accedere ai pesi.

Queste misure sono allineate a standard di sicurezza noti, e Antropic dedica una parte significativa del suo personale alla sicurezza. Tuttavia, il sistema SL3 non è progettato per resistere ad attacchi da parte di stati nazionali, il che solleva la questione di quanto tempo passerà prima che servano protezioni ancora più forti.

Risulta quindi essenziale discutere su come gestire l'accesso a queste tecnologie, bilanciando sicurezza e progresso. Vi invito a riflettere su queste sfide e a condividere le vostre opinioni. Grazie per averci seguiti in questo viaggio nel futuro della sicurezza delle intelligenze artificiali.