lunedì 28 aprile 2014

Amazon AWS Peggio Fallimento

Sono sicuro che quasi tutti sono consapevoli a questo punto del guasto che ha causato la soluzione cloud computing di Amazon AWS essere giù ieri (ed è ancora in qualche piccolo estendono accadendo in questo momento come si può vedere sul loro stato di pagina) per la maggior parte del giorno. Questo ha colpito un paio di big (Reddit, Foursquare, Quora, Heroku, Engine Yard, per es.) E molti piccoli siti ospitati a noi-est-1 regione AWS. Questo è successo a prescindere sulla zona disponibilità eri nella regione US-EAST (questa è la più antica e ancora il predefinito per molti strumenti client) e messo in discussione l' indipendenza e l'isolamento delle zone disponibilità per la progettazione delle infrastrutture AWS.
Il fallimento è stato specificamente legato alle EBS unità che hanno reso le istanze dei clienti non risponde, ma anche loro impedito di avviare o arrestare nuove istanze con gli stessi volumi EBS (che, probabilmente, il 99% ha provato immediatamente come hanno ottenuto paging). Ci sono alcuni siti che avevano meccanismi di failover, ma se fossero nella stessa zona disponibilità era inutile (qualcosa che sembrava una buona soluzione e veloce e conveniente). Altri, molte start-up, ha scoperto che non avevano tale meccanismo a tutti, e che dipendevano modo troppo sull'affidabilità Amazon. Fino a questo problema, Amazon ha avuto un grande record di uptime; ci sono stati molti problemi, ma con i singoli casi, ma non è una questione così globale. Ci si aspetterebbe persone che gestiscono la loro applicazione in the cloud aspettarsi errori ed essere pronti e sono sicuro che la maggior parte di loro sono confrontati con le applicazioni distribuite nel datacenter regolare, ma a quanto pare c'è ancora molto lavoro da fare.
Nel complesso credo che questo ha mostrato (se abbiamo bisogno di un promemoria), che gli errori possono capitare e chiunque può soffrire di un problema (Google ha avuto problemi, Facebook lo stesso, e Twitter è il più delle volte verso il basso, e adesso era solo turno di Amazon) . Dobbiamo essere preparati e costruire e architetto nostre applicazioni con questo in mente ed essere pronti a failover. Un grande esempio di questo è la progettazione di applicazioni Twilio:  http://www.twilio.com/engineering/2011/04/22/why-twilio-wasnt-affected-by-todays-aws-issues/
Anche io penso che Amazon imparerà molte cose da questo evento, e speriamo uno di loro sarà quello di comunicare meglio con i loro clienti . Si può sicuramente migliorare su questo, e non lasciare la gente ad andare a Twitter o EC2 forum per i migliori aggiornamenti su tali problemi invece dalla sorgente.
Ho visto anche diversi provider (non voglio fare nomi, ma sono ovunque su twitter) uscire e offrire i loro servizi alle persone colpite da questa. Io non credo che questo sia l'approccio migliore per vendere la vostra soluzione cloud molto performante o server barebone datacenter o qualsiasi altra cosa, e probabilmente lo fa peggio per loro reputazione facendoli apparire come coyote su una preda caduta. Sono sicuro che, come me, la maggior parte delle persone si sentivano disgustati sulle loro offerte in questo momento, e sicuramente non mi farà guardare la loro offerta di nuovo.
Ora è tempo di tornare a lavorare sul failover e il design ridondanza per i nostri clienti che hanno bisogno di aiuto con questo. Se siete stati colpiti da questo e vuoi condividere la tua storia e quali sono i vostri takeaway si sentono liberi di commentare qui sotto il post. Se hai bisogno di aiuto specializzato per progettare o realizzare un fault tolerant completamente infrastruttura non esitate a contattarci in qualsiasi momento. Noi siamo qui per aiutarvi.

Nessun commento:

Posta un commento

Nota. Solo i membri di questo blog possono postare un commento.