116. AWS e S3: cosa è successo e perché? E adesso?

Ciao Internet su Ciao Internet con Matteo Flora del 03.03.2017

Copertina del video: 116. AWS e S3: cosa è successo e perché? E adesso?

In questa Puntata

Un errore umano ha causato un'interruzione significativa nei servizi cloud di Amazon, evidenziando la dipendenza critica di molte aziende da questa infrastruttura. L'incidente ha messo in luce l'importanza delle best practice di ridondanza per garantire la continuità dei servizi, anche se spesso non vengono applicate a causa dei costi.
Amazon è un colosso del cloud computing, utilizzato da numerose aziende per la sua capacità di scalare rapidamente e la vasta gamma di servizi offerti. Recentemente, un errore umano ha portato alla caduta di una parte dell'infrastruttura di Amazon, precisamente quella legata al sistema S3 nella regione del Nord Virginia. Questo ha causato disservizi a catena per molte aziende che si appoggiano ai servizi di Amazon.

Nel post-mortem pubblicato da Amazon, è emerso che un addetto autorizzato, durante un'operazione di manutenzione, ha erroneamente rimosso un numero maggiore di server del previsto. Questo ha incluso server critici per il funzionamento stesso dell'infrastruttura, prolungando i tempi di ripristino.

La situazione ha evidenziato un problema comune: molte aziende non seguono le best practice di ridondanza, che suggeriscono di distribuire i servizi su più aree geografiche o su diversi provider per evitare interruzioni. Tuttavia, la duplicazione dei costi spesso scoraggia l'implementazione di tali misure. Anche Amazon ha sperimentato un effetto paradossale, con la sua stessa interfaccia di controllo resa inaccessibile proprio a causa del disservizio.

Questa vicenda sottolinea che, sebbene il cloud riduca molti rischi legati all'hardware fisico, non è immune da problemi e non garantisce la disponibilità assoluta. È un monito per tutte le aziende che si affidano al cloud per rivedere le proprie strategie di continuità operativa.