Datavarehus

(Data warehouse). En database eller et system som har som hovedopgave at støtte analyse af data snarere end nyproduktion af data. Som alle begreber, der får stor kommerciel interesse, har begrebet datavarehus også undergået en kraftig udvandingsproces, så det i dag bruges om alt der har med dataanalyse at gøre (se f.eks. beslutningsstøttesystemer, ledelses informations sytemer, OLAP, drill down, data mining). Begrebets fader Bill Inmon's oprindelige definition, går primært på organiseringen af data:

  1. I et traditionelt operationelt system er datas organisering optimeret efter de applikationer, der skal anvende data. Typisk er kravet om effektiv transaktionsgennemførelse bestemmende for det fysiske databasedesign. Databasedesignet afspejler ikke de enkelte entiteters betydning i en forretningsmæssig sammenhæng. Forretningsmæssigt betydningsløse hjælpetabeller kan have en lige så central placering i designet, som væsentlige entiteter. I et datavarehus er data organiseret subjektorienteret - Dvs. at data er organiseret omkring de subjekter, der er væsentlige for forretningen, typisk kunder, produkter etc.
  2. Data i et datavarehus er logisk integreret. I de fleste operationelle miljøer vil den samme entitet optræde i flere forskellige fysiske "versioner", afhængig af hvilken applikation den optræder i. Den samme kunde kan i en bank optræde som depotkunde i et system, og som indlånskunde i et andet system, og være modelleret vidt forskelligt. Denne organisering gør en samlet kundeanalyse (f.eks. rentabilitetsanalyse) meget vanskelig. Brugeren af et datavarehus ser kun ét integreret billede af kunden, og kan herudfra overskue alle kundens engagementer med banken. Et datavarehus har én sammenhængende datamodel, som for brugeren fremtræder både logisk og fysisk integreret. Dette betyder dog ikke at al data skal være samlet i én fysisk database, selvom en række praktiske problemstillinger ofte gør det uhensigtsmæssigt at implementere anderledes.
  3. Data i et datavarehus er, mens der er brugere på systemet, uforstyrret af opdateringer. Opdatering af datavarehuset sker i overvejende grad ved batch-kørsler, typisk om natten eller i weekenden, hvor massive mængder af data fra de operationelle systemer, eller eksterne kilder (f.eks. demografisk data), overføres til datavarehuset.
  4. Data i et datavarehus er tidsvariante. I et operationelt miljø har tid, når man går et par måneder tilbage ikke den helt store betydning (periodiske batchkørsler summerer og gør status). I et datavarehus er en lang og præcis historik helt afgørende for en lang række analyseformer (f.eks. tendensanalyse).

Karakteristisk for datavarehusets slutbrugermiljø er anvendelsen af grafiske ad hoc forespørgselsværktøjer, som stiller fleksible analysemuligheder til rådighed, uden at brugeren skal bekymre sig om den fysiske organisering af data, og syntaktiske elementer i det underliggende databaseforespørgselssprog (typisk SQL).

Forfattere: 
Jan Gravesen
Casper Thomsen