Dette indlæg er alene udtryk for skribentens egen holdning.

Hvis ikke IBM kan ?

Af Poul-Henning Kamp14. april 2008 kl. 11:5417
Artiklen er ældre end 30 dage

Af mange tåbelige ting man kan beskylde folk for, så skal man have en temmelig høj stol for at påstå at IBM ikke kan finde ud af at få computere og kommunikation til at virke.

Uden at vide andet og mere end hvad der er sluppet ud i pressen om IBM's lille driftproblem sidste uge, synes jeg der mangler et eller to perspektiver i debatten.

Hvis ikke IBM kan holde disse systemer i luften, er der så overhovedet nogen der kan ?

Og hvis ikke systemerne kan holdes i luften, bør det så ikke mane til eftertanke når nye systemer bygges ?

Artiklen fortsætter efter annoncen

Men jeg tænker også på ordet "synergieffekt".

Det er klart at det lød besnærende for det nu hedgangne Vestsjællands Amt at man kunne nøjes med en IT afdeling i Sorø, som blandt meget andet tog sig af Slagelse Centralsygehus. Som nogle vil huske betød det alle PC'er på sygehuset blev ramt af virus og at det tog dage at rydde helt op.

Når IBM kan vinde driftskontrakter på prisen, er det naturligvis fordi de har "synergieffekter" ved at anvende samme nødstrøm, netværk og i noget omfang computere til alle mulige ting.

Får kunderne at vide at gevinsten ved den slags synergi også gælder når ting ikke virker ?

phk

17 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
16
Indsendt af Anonym (ikke efterprøvet) den ons, 04/16/2008 - 11:02

Næ, det jeg vil frem til er, en switch fejl må da ikke kunne trække så mange systemer med. Med min forståelse af hvordan netværk virker burde tingene vel falde til ro når switchen fjernes fra nettet. Backup systemerne burde have detekteret at den diftene server ikke var tilgængelig og have taget over. Hvis systemerne ikke er i stand til det kan man ikke tillade sig at sige at systemet er oppe i five nines.

15
16. april 2008 kl. 09:21

F.eks. i filsystemerne.

Det staar stadigt lidt aabent for mig hvordan et forholdvis banalt netvaerksproblem kan sende kunderne i doerken saa laenge. Min mistanke er at fejlen ogsaa kan have medfoert at en raekke servere er havnet i en invalid state og er crashet. Specielt clustersystemer er meget saarbare overfor netvaerksfejl.

@Klaus Jeg tror stadigt at Proevensvej er overvejende Sun paa hardware og cisco paa netvaerk (mainframe er naturligvis IBM og jeg kender ikke wintel setuppet). Personligt har jeg ikke set nogen tegn paa at OS-clustre eller RAC har en positiv indvirkning paa availability i krisesituationer - typisk bliver man alligevel noedt til at genstarte serveren. Jeg anerkender tilgengaeld at de giver fleksibilitet i alm drift.

14
16. april 2008 kl. 08:46

Nej, Klaus hentyder formodentligt til at replikering mm. i DB2 er noget mainframe hø.

13
16. april 2008 kl. 07:47

Hvad vil du frem til? Fordi en switch i netværket (formentligt Cisco) giver problemer, så er der noget galt med IBM's produkter?

12
Indsendt af Anonym (ikke efterprøvet) den ons, 04/16/2008 - 06:55

Du skan såmen også clustre dit netværk.

Jeg er fuldstændigt enig med dig. Måske er det fordi at IBM's produktstak måske ikke er markedsførende på netop dette område, og IBM's drift måske har en forkærlighed for IBM's produkter.

Men jeg gætter bare. :-)

11
15. april 2008 kl. 22:11

Ja, selvfølgelig kan man det og så flytter man sårbarheden til netværket (hvor IBM siger problemet opstod).

Min pointe var at man ikke kan sammenligne Google's søgemaskine, der kan spredes ud over tusinder af nodes over hele verden, med en transaktionsorienteret database applikation der pinedød skal kunne svare korrekt, hvergang.

Poul-Henning

10
Indsendt af Anonym (ikke efterprøvet) den tir, 04/15/2008 - 21:21

Du skriver: De applikationer IBM havde problemer med, var alle transaktionsorienterede, hvor man pinedød skal have en database et sted som kan svare definitivt på hvad tingenes tilstand er.

Nogle databaser kan da sagtens klare det. Prøv at kikke på Oracle Grid og Real Application Cluster. Så man kan sagtens lave distribuerede databaser som er placeret forskellige steder på forskellige fysiske lokationer.

Hvis IBM har en service level aggrement på 99,999% og de ikke har deres database placeret i en eller anden form for cluster syntes jeg de bør have lidt røde ører.

9
15. april 2008 kl. 19:44

@Troels Dit link med ebays arkitektur beskriver mellem linierne hvorfor den gamle transaktionsmekanisme stadigt overlever og det er udviklingspris. Det er rigtigt dyrt at udvikle loestkoplede arkitekturer og da de typisk tillader en vis redundans kan der opstaa inkonsistens i transaktionsstate. Inkonsistenter transaktioner er ikke et stort problem i den virtuelle verden mens f.eks. banker ikke tillader inkonsistens. Hvis man designer high volume applikationer til internettet er traditionelle transaktioner en doedssejler. Et godt eksempel er billetnet.dk, der ikke kan skalere.

Jeg spaar transaktionsmekanismen en lang levetid :-)

17
16. juni 2008 kl. 07:59

@Claus

"Et godt eksempel er billetnet.dk, der ikke kan skalere."

De må ikke bruge ticketmaster's teknologi som de bruger i USA, England og Australien, så. Deres "rigtige" teknologi kan sælge cirka 20000 billetter hvert minut hvis jeg husker rigtigt. :-)

  • ask
8
15. april 2008 kl. 10:18

Børsen har i dag, hvad de kalder et eksklusivt interview med IBM om sagen, og her forklarer Lars Mikkelgaard-Jensen fra IBM, at »det var en switch, der begyndte at sende voldsom trafik ind i [deres] netværk.«

Læser man videre i artiklen, finder man hurtigt ud af, at det ligner et såkaldt spanning tree loop. Den slags kan (og skal) man gardere sig imod på en række måder, hvilket andre sagtens kan finde ud af.

Mange firmaer driver datacentre på en sådan måde, at det er serverfolk, der også lige får lov at smide switche ind efter behov i stedet for at vælge topkvalificerede netværksfolk. Det er nærmest en opskrift på katastrofe.

Om det også foregår sådan i IBM, ved jeg ikke, men der er en tendens til, at store, internationale firmaer kører med meget skarpt opdelte afdelinger, og at man ikke bare lige kan låne en kollega fra en anden afdeling, når man har behovet.

7
15. april 2008 kl. 10:18

Jeg tror forskellen på de systemer som IBM drifter og dem Google og Amazon driver er den initielle tankegang: Google og Amazon lever med en konstant tankegang om at deres programmer fejler. Faktisk designer de systemerne så enhver fejl kan overleves og systemet genetablere sig i løbet af ganske kort tid.

6
15. april 2008 kl. 10:17

Det er sjovt, jeg husker en TV-reklame som vist snart kan dateres en del år tilbage.

Vi ser et mødelokale fyldt med vigtige personer i jakkesæt osv. og der er krise, for it-systemet er nede. Dialogen fortæller historien:

"Right now we are losing close to 100.000 $ per hour"

"Who's responsibility is this?"

"It's actually yours!"

Og så kommer pointen:

"That's when you know, you need IBM"

(Der er muligvis afvigelser fra den originale dialog)

Og min pointe: IBM har solgt en vare som i de fleste tilfælde er dyrere end mange andre levendøres, men de har kunnet sælge den fordi de har et ry for stabilitet, sikkerhed og robusthed. En historie som den her er virkelig skidt for sådan et foretagende, historien er så stor fordi det netop er det her punkt IBM sælger deres produkter på.

5
15. april 2008 kl. 08:08

Mere eller mindre alle driftscentre fungerer jo på den måde... fælles strøm, fælles netværk (hw.) etc. etc. Det er jo hele konceptet.

4
14. april 2008 kl. 23:40

Du har sikkert ret når man stadig designer systemer som død og pine skal være transaktionsorienteret fra bund til top, selv om mindre og smartere kunne gøre det.

Når firmaer som E-Bay kan klare sig uden(http://www.infoq.com/news/2008/03/ebaybase), burde der så ikke være lidt håb forude?

Gik den datalogiske udvikling virkeligt helt i stå en gang i 70'erne da man havde opfundet de først transaktionalle databaser? Burde det ikke være muligt at benytte lidt af den forskning i distribuerede systemer til noget fornuftigt så vi ikke stadig sidder fast i 30 års gammel mainframe tankegang?

Med lidt fantasi så burde de to ting nu godt kunne sammenlignes alligevel :).

Mvh Troels

3
14. april 2008 kl. 22:21

og deler ikke din ubetingede beundring af IBM :-)

Der er mange tekniske kompetancer, men det er oekonomifolkene som har magten i IBM og under alle omstaendigheder tror jeg ikke at kunderne vil kunne lide prisen og de begraensninger som foelger med.

Jeg deler helt din bekymring over at de stoerre driftenheder medfoerer stigende risiko for single point of failure baade de banale fejl i centraliseret infrastruktur og de lidt mere skjulte som f.eks. at homogeniserede procedurer for adgangskontrol aabner store sikkerhedshuller paa tvaers af mange organisationer.

Men selv om vi helt fik elimineret single point of failure er der jo stadigt Murphys Law, som dikterer at dobbelte fejl ogsaa kan forekomme. Faktisk syntes jeg at det er positivt at vi jaevnligt bliver mindet om at vores infrastruktur og applikationer ikke er usaarlige og at vi hele tiden skal proeve at blive bedre.

Mvh Claus

2
14. april 2008 kl. 21:35

De "fleste større internetvirksomheder" leverer services der ikke er transaktionsorienterede og derfor kan man lave en massiv replikation og bruge ting som load-directors til at dække over de maskiner der på et hvert tidspunkt er nede.

De applikationer IBM havde problemer med, var alle transaktionsorienterede, hvor man pinedød skal have en database et sted som kan svare definitivt på hvad tingenes tilstand er.

De to ting kan du simpelthen ikke sammenligne.

Poul-Henning

1
14. april 2008 kl. 21:24

For IBM er mainframe måden at bygge systemer på stadig den rigtig løsninger til alle problemer. Hvilket åbenbart ser sig slået af "cloud computing" eller hvilket buzzword man nu vælger at klistre på den måde Google og Amazon køre deres systemer. Fx. mindes jeg ikke at have oplevet nogen af dem lave samme nummer.

Så jeg ville mene at de flest større internet virksomhedder sagtens kunne lære IBM en ting eller to om hvordan man laver systemer der ikke går ned bare fordi man har et mindre nedbrud på en del af sit system.