OpenAI ha "rubato" un milione di ore a Youtube: aveva "fame" di dati...

Ciao Internet su Ciao Internet con Matteo Flora del 10.05.2024

Copertina del video: OpenAI ha

I contenuti dell'Episodio #1251

In questa puntata di "Ciao Internet", esploro le ragioni dietro lo sviluppo di Whisper da parte di OpenAI, un avanzato software open source per la trascrizione da voce a testo. Analizzo le implicazioni di questa tecnologia nel contesto della crescente scarsità di dati testuali per l'addestramento dei modelli di intelligenza artificiale, e come Whisper possa essere stato utilizzato per raccogliere dati da piattaforme come YouTube. La discussione si sviluppa attorno alle motivazioni aziendali di OpenAI e alle sfide etiche e culturali legate alla raccolta e all'utilizzo di dati online.
Ciao a tutti, sono Matteo Flora e benvenuti a un nuovo episodio di "Ciao Internet". Oggi ho deciso di parlare di Whisper, un software open source sviluppato da OpenAI, la stessa azienda che ha creato ChatGPT. Whisper è probabilmente il miglior sistema di trascrizione da voce a testo attualmente disponibile sul mercato, e la cosa interessante è che è completamente libero. Questo significa che chiunque può scaricarlo e utilizzarlo per trasformare il parlato in testo scritto.

Ma perché OpenAI ha deciso di sviluppare un sistema così complesso e avanzato? La domanda mi ha incuriosito, soprattutto considerando il livello di precisione raggiunto da Whisper. All'inizio, la mia speranza era che fosse stato creato semplicemente per il piacere di condividere con la comunità, ma la realtà sembra essere un po' diversa. Secondo il CEO di YouTube, OpenAI avrebbe utilizzato Whisper per trascrivere almeno un milione di ore di contenuti presenti sulla piattaforma, un dato sorprendente.

La ragione dietro questa massiccia raccolta di dati è piuttosto pragmatica: i dati testuali disponibili online si stanno esaurendo. Negli ultimi anni, la maggior parte dei contenuti creati sono stati audiovisivi piuttosto che scritti, e per migliorare l'intelligenza artificiale, come i modelli di linguaggio di OpenAI, c'è bisogno di una grande quantità di dati. Scaricare e trascrivere video da YouTube diventa quindi una soluzione per arricchire il database di dati testuali.

Questo solleva anche questioni etiche e legali sulla raccolta e l'uso di dati protetti da copyright. Tuttavia, dal punto di vista di OpenAI, rendere Whisper open source ha senso perché non rappresenta il core del loro modello di business. È uno strumento per ottenere dati, non il prodotto venduto.

Il tema della scarsità di dati è cruciale per il futuro dell'intelligenza artificiale, poiché i dati sono il carburante che alimenta questi sistemi. Senza un flusso costante di nuove informazioni, il progresso dei modelli AI potrebbe rallentare. E se consideriamo che OpenAI ha già trascritto un milione di ore di contenuti, possiamo immaginare quanto la loro capacità di comprendere la realtà quotidiana sia aumentata.

In conclusione, mentre speravo che Whisper fosse solo un bel regalo per la comunità, sembra che il suo sviluppo abbia motivazioni più concrete e meno "coccolose". Vi invito a riflettere su queste dinamiche e a condividere le vostre opinioni. Non dimenticate di iscrivervi al canale e mettere un like se trovate interessante questo tipo di contenuti. Grazie per avermi ascoltato, ci vediamo alla prossima!