AWS e S3: cosa è successo e perché? E adesso?

Ciao Internet su Ciao Internet con Matteo Flora del 03.03.2017

Copertina del video: 116. AWS e S3: cosa è successo e perché? E adesso?

I contenuti dell'Episodio #116

In questo episodio di Ciao Internet, parlo di un recente problema tecnico che ha coinvolto Amazon Web Services (AWS) e ha causato l'interruzione di numerosi servizi online. Analizzo come Amazon gestisce gli errori, l'importanza della ridondanza nei servizi cloud e le lezioni che possiamo trarre da questo incidente.
Ciao Internet! Oggi voglio parlare di un argomento che mi sta particolarmente a cuore: la gestione degli errori da parte delle grandi aziende tecnologiche, prendendo come esempio l'ultimo incidente che ha coinvolto Amazon Web Services (AWS). Una delle cose che mi piace di Amazon è che, pur non essendo infallibile, quando sbaglia ammette i suoi errori. Recentemente, un problema con l'infrastruttura di Amazon S3 nella zona del Nord Virginia ha causato l'interruzione di molti servizi online. Questo ci ricorda quanto Amazon sia diventata una parte fondamentale dell'infrastruttura di internet, più che per se stessa, per quasi tutta la rete.

Molti grandi player del web si affidano ad Amazon per la scalabilità e la velocità che offre, nonché per evitare di gestire tutta l'infrastruttura in proprio. Tra le opzioni di cloud computing più diffuse, Amazon, Microsoft Azure e Google Cloud sono leader del mercato, ma Amazon è particolarmente popolare grazie alla sua lunga presenza e alla vasta gamma di servizi offerti.

L'incidente è stato causato, come riportato nel post mortem pubblicato da Amazon, da un errore umano. Un addetto autorizzato, seguendo le istruzioni, ha rimosso un gruppo di server molto più grande del previsto, compromettendo così l'infrastruttura. Questo ha reso necessario un tempo considerevole per ripristinare i servizi, poiché alcuni dei server rimossi erano cruciali per il funzionamento dell'infrastruttura stessa.

La situazione ha messo in evidenza l'importanza della ridondanza nei servizi cloud. Le best practice suggeriscono di avere i servizi distribuiti su più aree geografiche per evitare problemi in caso di interruzioni locali. Tuttavia, questo comporta costi aggiuntivi che non tutti sono disposti a sostenere. Il risultato è che, quando Amazon subisce un'interruzione, molti servizi dipendenti diventano offline.

Interessante notare come anche Amazon stessa sia caduta vittima di questo problema di ridondanza. L'interfaccia che gestisce i server usava S3 in un'unica zona, quindi anche la console di gestione si è trovata offline. È un esempio di come spesso si presuma erroneamente che una macchina in cloud resti sempre online. La realtà è che, sebbene riduca molti rischi hardware e di alimentazione, non è una soluzione infallibile.

Questo episodio ci offre molte lezioni da imparare sulla gestione dei servizi cloud e sull'importanza della pianificazione e della ridondanza. Grazie mille per avermi ascoltato e, come sempre, a presto!