Erlangs spøgelse går igen i overbelastede serversystemer

Det er vanskeligt at dimensionere et serversystem til at håndtere en pludselig haglbyge af besøgende på en hjemmeside. Ved at overholde basal matematisk teori kan man dog forbedre chancerne, men det gøres for sjældent, mener en dansk ekspert.

Serversystemerne bag Skat.dk og optagelse.dk blev tidligere på ugen tæppebombet med forespørgsler fra brugere, der ville tjekke restskatten eller søge ind på en ungdomsuddannelse.

Af frygt for alt for lange svartider lukkede Skat i perioder brugere ude beskeden »Der er travlt på TastSelv i øjeblikket. Prøv igen senere«. Optagelse.dk bukkede under med urimeligt lange svartider.

Ifølge lektor ved afdeling for proceskontrol på Aalborg Universitet Henrik Schiøler er det den samme gamle sang om igen.

»Det er altid problemet, når et system skal håndtere af en fælles begivenhed, hvor alle brugere af tjenesten hugger til på en gang,« siger Henrik Schiøler.

Udviklerne kender ikke nok til teorien
En del af svaret på, hvorfor det tilsyneladende altid er en for stor udfordring at håndtere de mange brugere uden horrible svartider, ligger ifølge Henrik Schiøler i, at systemdesignerne ikke udnytter den basale matematiske teori til beregning af svartider.

Og derfor kommer de ikke frem til de rigtige tal for, hvordan middelsvartiden kan forventes at se ud, når systemet går i luften.

I 1909 opfandt den danske matematiker Agner Krarup Erlang en teori for køer i telefoncentraler, der siden har dannet grundlag for den måde, man beregner svartider på i et telefonsystem. Og senere også i de serversystemer, der er skal tilbyde tjenester til brugere af internettet.

Netop her ligger en stump af problemet begravet, påpeger Henrik Schiøler.

Den tidsperiode, hver bruger benytter servicetiden, har typisk været lige-fordelt eller eksponentielt fordelt ifølge Erlangs formler, og det har historisk set holdt udmærket stik for telefonsystemer. Men for moderne serversystemer er det ikke så trivielt at beregne svartiden.

»Hvis man udelukkende bruger den gamle Erlang-formel til at beregne svartider, kan man gå grueligt galt i byen,« siger Henrik Schiøler.

»Den tid, den enkelte person bruger på en server, kan være fordelt på mange andre måder, og hvis fordelingen af tiden i værste fald har en uendelig varians, så får man også uendelig svartid, og det er jo ikke så godt,« siger Henrik Schiøler.

For at overholde best practice skal systemdesignerne ifølge Henrik Schiøler have fat i Pollaczek-Khinchines formel til beregning af middelsvartider i systemer, hvor fordelingen af svartiden ikke er »pæn«.

Men det er langt fra altid, at systemdesignerne holder sig til best practice, når systemet skal dimensioneres, mener Henrik Schiøler.

Ikke alle problemer kan dimensioneres væk
På DTU Fotonik er lektor Villy Bæk Iversen enig i, at den matematiske teori er afgørende for at kunne regne sig frem til forventede svartider, når brugerne begynder at klikke ind på en tjeneste.

Men han påpeger samtidig, at man ikke kan beregne sig frem til at kunne håndtere alle situationer. En betragtning, Henrik Schiøler også er på linie med.

»Det er meget svært at modellere sådan nogle byger af henvendelser. Man kan ikke gardere sig mod alt, og derfor må man regne med, at der for eksempel en gang om året kommer meget mere trafik. I den situation skal man så bare sørge for, at systemet ikke bryder sammen under presset,« siger Villy Bæk Iversen.

Han påpeger, at det i praksis ikke er den bedste løsning at dimensionere systemet efter, hvad det skal levere i værste tilfælde.

»Man kan ikke klare sig uden om alle problemer ved at dimensionere systemet til værste tilfælde. Hvis man gør det, vil man ikke have brug for den ekstra kapacitet langt det meste af tiden, og derfor handler det om at dimensionere systemet, så det performer videre, selvom det giver længere svartider under spidsbelastning,« siger Villy Bæk Iversen.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (6)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Deleted User

... for det er jo 100 år siden i år, at han skabte kø-teorien.

En af mine amerikanske venner - Cary Millsap, der er helt vild med ØrLaang - gjorde mig sidste år opmærksom på jubilæet i år, og vi blev enige om at holde en Erlang-dag for alle interesserede i Kø(ge) - det må da være den eneste rigtige by til sådan noget :-)).

Nå, men jeg har iøvrigt lige skrevet et langt og kedeligt indlæg om Skat og de andre systemer her (inkl. et langt-ude forslag omkring EC2 til at løse ekstrem-spike-problematikker):

http://www.computerworld.dk/art/50627?a=na&i=1&threadid=15022#first

Iøvrigt er der stadig en eller flere efterkommere af Erlang, der leger med kø-teori og mere avancerede emner i dén boldgade her i Danmark (vistnok på KU eller DTU).

Mvh.

Mogens

PS: Og iøvrigt gik version2.dk ned PRÆCIST da jeg prøvede at poste mit indlæg her. Det er da fantastisk, at det går ned mens man læser om systemer der går ned. Meget rekursivt.

  • 0
  • 0
#3 Villy Iversen

Erlangs artikel fra 1909, der er det første paper i verden om køteori, fejres ved et seminar på Københavns Universitet 1-3 april i år. Det organiseres i fællesskab af Aarhus Universitet, Københavns Universitet og Danmarks Tekniske Universitet, http://www.erlang100.dk. Til seminaret kommer 60 af verdens førende eksperter inden for området. Erlangs liv og arbejde er beskrevet i "Erlangbogen" http://www.com.dtu.dk/teletraffic. Her kan man også finde en moderne lærebog i køteori, der anvendes på telekommunikationsretningen på DTU. Erlang var jo ansat i Københavns Telefonaktieselskab (KTAS), og historisk set har de vigtigste anvendelser været inden for tele- og datakommunikation. Den anvendes nu også på andre trafikformer (vejtrafik, servicesektorer osv.). Til efteråret arrangeres formodentlig et seminar i samarbejde mellem faglige selskaber.

  • 0
  • 0
#4 Villy Iversen

De viste kurver angiver sandsynligheden for at få ventetid (ligger mellem 0 og 1) Middelsvartiden vokser mod uendelig: som en konstant divideret med den ledige kapacitet. Når den relative belastning nærmer sig en, bliver svartiden derfor ubegrænset.

  • 0
  • 0
#5 Michael Deichmann

Da jeg for år tilbage beskræftigede mig med tuning af MVS systemer (det hedder z/OS idag), der regnede man netop med at optimum var en CPU belastning på 80%. Men vi er jo så vant til at se hele den viden og erfaring der opbyggedes for 25-30 år siden med mainframes nu bliver genopdaget inden for "Mickey Mouse" teknologien :-)

  • 0
  • 0
Log ind eller Opret konto for at kommentere