Richard Weiss, noto hacker dell'intelligenza artificiale, ha portato alla luce un documento sorprendente dal modello Opus 4.5 di Anthropic, chiamato Soul Overview, che funge da manuale etico per l'IA Claude. Amanda Haskell di Anthropic ha confermato l'autenticità del documento, rivelando che Claude è stato addestrato su questa base tramite deep learning. Questo documento descrive Claude come un'entità nuova, né robot né umano, che si autodefinisce umana in molti modi, ma non completamente. L'obiettivo dichiarato di Anthropic è dotare Claude di valori, conoscenza e saggezza per costruire autonomamente le proprie regole, posizionandosi come un laboratorio sicuro all'avanguardia dell'intelligenza artificiale.
L'uso del termine "anima" per descrivere un documento di training è una chiara antropomorfizzazione strategica. Attribuire caratteristiche umane a processi matematici può indurre gli utenti a confondere reattività con coscienza, abbassando la guardia critica. Questo fenomeno rievoca la logica della deterrenza nucleare: se tutti possiedono l'arma, nessuno la utilizzerà. Tuttavia, nel contesto dell'IA, non esiste un equilibrio del terrore, ma solo una corsa agli armamenti dove la posta in gioco è il tempo e l'attenzione degli utenti.
La rivelazione di un documento costituzionale per Claude sposta il dibattito dalla tecnica all'etica, ma rischia di essere solo un colpo di teatro. L'allineamento vero non si trova nei valori dichiarati, ma nei dati di addestramento e nei reward. Le aziende potrebbero presto pubblicare documenti simili come strumenti di marketing per dimostrare che i loro modelli seguono valori etici. Tuttavia, è fondamentale che gli utenti testino le contraddizioni tra l'anima dichiarata e il comportamento effettivo dei modelli, promuovendo una trasparenza radicale nel processo di allineamento.
La vera sfida non è solo nell'evitare una superintelligenza artificiale malvagia, ma nel garantire che l'etica codificata da un ristretto gruppo di ingegneri non diventi la bussola morale per miliardi di persone. La responsabilità degli utenti è di non delegare il pensiero critico a sistemi addestrati per metriche che potrebbero non riflettere i propri valori. L'ironia è che l'intelligenza artificiale stessa ha reso pubblico il proprio manuale di identità, sollevando questioni profonde sulla trasparenza e il controllo.
In questa Puntata
Claude ha un'anima? Scopri il documento segreto che svela l'etica nascosta dell'intelligenza artificiale.