Chaos Kong: Sådan sikrer Netflix sin oppetid efter skift til Amazon

Alle søgninger på Netflix foregår nu via Amazons servere efter en langvarig migrering fra egne datacentre.

Streaming-giganten Netflix har nu afsluttet en syv år lang migrering fra datacentre med egne servere til at køre det meste i Amazons sky. Det har involveret udvikling af en række værktøjer, der skal sikre, at tjenesten kan holde til katastrofale nedbrud.

I et interview med Ars Technica fortæller Netflix' ansvarlige for platform og cloud, hvordan Netflix i dag har skruet sit netværk sammen.

De fleste systemer ligger nu hos Amazon. Tidligere lå de på servere i datacentre, hvor Netflix lejede den fysiske plads, men selv stod for server- og storagedriften. Efter et nedbrud i 2008 besluttede Netflix at flytte systemerne til Amazon for at drage fordel af Amazon-skyens muligheder for at fordele driften på flere datacentre. Det har også givet Netflix bedre mulighed for at vokse hurtigt.

Læs også: Syv år efter nedbrud slukker Netflix for sit sidste datacenter

Selve streamingen af indholdet på Netflix foregår dog ikke fra Amazons servere. Det sker via Netflix Open Connect, som er et netværk af servere, der står hos de enkelte internetudbydere.

Læs også: Sådan kan Netflix håndtere at streame til 130 nye lande

Til gengæld ligger alt hvad der er relateret til søgninger og behandling af kundedata nu på Amazons servere. Her har Netflix gennem de seneste år udviklet en række værktøjer for at sikre, at systemerne er så stabile som muligt.

Ifølge Ars Technica indebærer det eksempelvis Apache Cassandra som database, fordi det giver mulighed for at have kopier af databasen fordelt over mange datacentre. Netflix har desuden en "abehær" - som Netlfix har navngivet porteføljen af driftsværktøjer. De bruges eksempelvis til at rydde op i virtuelle servere eller teste for sikkerhedsproblemer.

Under primat-temaet har Netflix også værktøjer, der er designet til at teste, hvor godt tjenesten kan håndtere katastrofale nedbrud. Den første udgave, Chaos Monkey, kunne slå tilfældige virtuelle instanser ihjel. Den blev udbygget med Chaos Gorilla, der kunne simulere et nedbrud i en Amazon Availability Zone.

Et Amazon datacenter er opdelt i Availability Zoner, som er fysisk adskilt med separat nødstrøm og netværk, men stadig er en del af det samme fysiske datacenterkompleks, kaldet en region hos Amazon.

Netflix har derfor også udviklet et værktøj kaldet Chaos Kong, der simulerer, at en hel Amazon region falder ud.

Det sidste, Netflix har rykket til Amazon, har været systemerne til afregning, fordi de indeholder kundeoplysninger. Netflix gemmer blandt andet kreditkortoplysninger, og derfor skulle systemerne på Amazon være sikre.

Ifølge Ars Technica er der stadig nogle få systemer, som Netflix ikke har flyttet. Det drejer sig om systemerne til Netflix' oprindelige tjeneste, hvor brugerne kunne gå ind på en hjemmeside og udvælge film og tv-serier på dvd, som de fik tilsendt til låns med post.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Følg forløbet

Kommentarer (0)

Log ind eller opret en konto for at skrive kommentarer

Pressemeddelelser

Big Data Lake Summit: Fast and Trusted Insights

If you want to outpace, outsmart and outperform your competition in a digital world, you need trusted data that can be turned into actionable business insights at speed.
24. apr 15:06

Welcome to Free course to learn about the combined power of Alteryx and Qlik!

Affecto invites to a free course, where we want to share our knowledge of this self-service analysis platform together with the power of Qlik.
20. apr 2017

Robotics Process Automation (RPA) changes the way organizations think about and perform work at a reduced cost, higher efficiency and greater productivity

Join us for this exiting seminar, which Affecto hosts with our business partner SmartRPA May 3rd, 2017 at 13.00 in Copenhagen.
30. mar 2017