C'è della P*DOFILIA nei dati che addestrano le A

Ciao Internet su Ciao Internet con Matteo Flora del 21.12.2023

Copertina del video: C'è della P*DOFILIA nei dati che addestrano le A #1201

I contenuti dell'Episodio #1201

In questa puntata di Ciao Internet, affronto un tema scottante e complesso: la presenza di contenuti pedopornografici nei set di training delle intelligenze artificiali generative. Discuterò dei problemi etici e legali legati a questi dataset, del processo di rilevazione e validazione di tali contenuti e delle implicazioni per la privacy e la sicurezza. È un episodio che mette in luce le sfide e le responsabilità che accompagnano lo sviluppo delle tecnologie AI.
Ciao a tutti, sono Matteo Flora e oggi vi do il benvenuto a una puntata un po' particolare di Ciao Internet. Parleremo di un argomento che, sebbene scomodo e controverso, merita la nostra attenzione: la capacità delle intelligenze artificiali generative di creare immagini pedopornografiche. Questo non è un semplice sospetto, ma una realtà confermata da numerosi studi. Infatti, all'interno dei grandi modelli di AI, è stato scoperto materiale pedopornografico, il che solleva una serie di interrogativi su chi gestisce i contenuti di training e sul loro controllo.

Iniziamo con alcune premesse fondamentali. Quando parliamo di training set, ci riferiamo a enormi collezioni di dati utilizzati per allenare i modelli AI. Questi set contengono miliardi di contenuti, spesso raccolti dalla rete senza autorizzazione, e sono cruciali per l'addestramento delle intelligenze artificiali. Un esempio significativo è LION, un dataset immenso che comprende 5 miliardi di link a immagini, tra cui, come dimostrato da una ricerca di Stanford, migliaia di contenuti sospetti di pedopornografia.

La validazione di questi contenuti è complessa, soprattutto in Italia, dove la detenzione a scopo di ricerca è reato. Si utilizzano sistemi di firme digitali per identificare le immagini pedopornografiche senza detenerle direttamente. Questo metodo permette di confrontare le immagini con una banca dati, come FotoDNA di Microsoft, per rilevare contenuti illegali.

Il problema più grave è che molti di questi dataset non sono stati adeguatamente filtrati per rimuovere contenuti illeciti. In Europa, possedere o anche solo linkare a materiale pedopornografico costituisce un reato, e chi ha scaricato questi set potrebbe trovarsi in possesso di materiale illegale. Oltre alla pedopornografia, questi database potrebbero contenere immagini protette da copyright e dati personali di persone inconsapevoli.

Le aziende come Google e Stability AI affermano di aver filtrato i contenuti, ma la mancanza di trasparenza rende difficile verificare tali affermazioni. È essenziale che ci sia una supervisione rigorosa sui contenuti utilizzati per l'addestramento delle AI per evitare la perpetuazione di contenuti dannosi e il dolore delle vittime di pornografia non consensuale.

Alla fine, dobbiamo chiederci quale sia il modo corretto di gestire questi contenuti nel contesto dell'AI. Dobbiamo tenerli, eliminarli, o trovare un modo per utilizzarli con responsabilità? È una questione complessa che richiede attenzione e riflessione da parte di tutti noi.

Grazie per avermi ascoltato. Se non ci sentissimo prima delle feste, vi auguro buone vacanze. Potete contattarmi tramite i canali indicati qui sotto. Alla prossima!