Jesper S. Møller

Fra Ascii til Xml

Æh, i stedet for at programmering i XML læser jeg PHK's ønske om tools á la grep og sed blot til arbejde (måske strømorienteret) på XML i stedet for flade filer.

Det mest oplagte i den sammenhæng er at nævne XPath2 og XQuery.

XPath2 er som regex for XML (altså ekstraktion af data fra XML), eks:

//td//img[width > 100]@href

Udtrækker alle "img" tags som ligger under en tabelcelle, hvor bredden er angivet til mere end 100 pixels.

Tilsvarende er XQuery sammenlignelig med 'sed' eller 'awk' for XML:

{ for $x in doc("input.xhtml")//td//img[width > 100]@href return {$x} }

Dette genererer en XML fil med disse URL'er i, og der er et fuldt udtrykssprog til at beregne og sammenstille data med.

Der er flere sådanne XQuery processorer på markedet, f.eks. Zorba og Saxon, og de kræver hverken DTD'er eller (mere relevant) XML Schema for at virke, de skal bare have XML ind.

(Men bevares, med schemainformation an man lave lidt sjovere ting, såsom "instance of" checks og den slags, men det er en længere historie.)

19. oktober 2010 kl. 00:26
Fra Ascii til Xml

(ups, dobbeltpost slettet)

19. oktober 2010 kl. 00:23
Skat vil kopiere virksomheders harddiske

Og det er bekymrende med at harddiskene blot kan videregives til politiet. Men hvad kan politiet bruge dem til. Ja i USA ville det være nul og nix fordi man ikke må bruge beviser der er ulovligt tilvejebragt. Men i Danmark er det vist helt legalt. Hvem sagde diktatur.

Hvis man kan bruge retsplejelovens § 789 som rettesnor (som specifikt omhandler indgreb i meddelelseshemmeligheden) er reglen at politiet har fri adgang til at gøre brug af tilfældighedsfundets oplysninger i den videre efterforskning, men udelukker som hovedregel, at de anvendes som bevis i retten. Retten kan dog i henhold til rpl. § 789 stk. 3 bestemme det modsatte, hvis andre efterforskningsskridt ikke vil være egnede til at sikre bevis i sagen, og at sagen angår en lovovertrædelse med en strafferamme på mindst 1 år og 6 mdr., samt at retten i øvrigt finder det ubetænkeligt at anvende de beviser, tilfældighedsfundet har tilvejebragt.

Citat fra http://www.retssikkerheds-fonden.dk/forum%20om%20aendring%20af%20retsplejeloven.pdf

5. oktober 2010 kl. 09:31
Skat vil kopiere virksomheders harddiske

Det er det faktum at de skal kunne gøre det UDEN dommerkendelse, der er dybt bekymrende.

Enig, harddiskkopi uden dommerkendelse er forrykt, det misser jeg ikke -- men det, diskussionen (i store træk) misser, hvad jeg efterlyser, er den digitale udgave af den inspektionsmulighed, Skat har i dag, hvor man er nødt til at printe alting ud, hvilket er voldsomt besværligt for både Skat og virksomheden. Jeg kan rigeligt forestille mig at det ender i en "deklarationsmodel", á la Sarbanes-Oxley og PCI, hvor virksomheden er pligtig til at registrere alt muligt udenomsinfo som så kan gøres til genstand for selvstændig inspektion. Og det kan blive meget dyrt, men selvfølgelig bedre end harddiskkopier fra et retssikkerhedssynspunkt.

4. oktober 2010 kl. 21:40
Skat vil kopiere virksomheders harddiske

Nu er denne debat åbenbart løbet af sporet, men jeg synes ikke der kommer nogen konstruktive forslag til hvordan der kunne laves en løsning svarende til de papirbaserede kontrolbesøg, Skat må foretage i dag, som de fleste vel anser som rimelige.

Altså en indsigtsmulighed, der modsvarer at bladre i ringbindene i reolen, bare digitalt.

Hvad kunne det være? Fuldt eksport fra regnskabssystemer, kombineret med automatiseret scanning af dokumenter på servere men hvor det er virksomhedes opgave at forklare hvad der er regnskabsrelevant og hvad der ikke er? Eller skal vi bare nedlægge Skats kontrolafdeling?

4. oktober 2010 kl. 16:05
Skat vil kopiere virksomheders harddiske

Hvad har Troels Lund Poulsen med den her sag og gøre ?

Han er skatteminister og står bag forslaget?

http://www.berlingske.dk/danmark/minister-vil-give-skat-mere-magt

4. oktober 2010 kl. 11:51
Skat vil kopiere virksomheders harddiske

1. Hvorfor vil SKAT gennemføre forslaget? Som jo intet bringer.

Man kunne forestille sig at man fremadrettet kunne frygte at tabe skatteprovenue hvis det blev for nemt at fremstille falske regnskaber som eksternt brug, en praksis, der jo har været fremme i vælten på det seneste. Den kan jo godt være lidt svær at indregne i næste års finanslov.

Man kunne også bare forestille sig at man fra politisk side ville [b]synes[/b] at være på forkant med tingene, m.a.o. sikkerhedsteater.

4. oktober 2010 kl. 11:39
Skat vil kopiere virksomheders harddiske

Linjen om "At drive virksomhed er ikke en ret, det er et privilegium" referer til den juridiske skelnen i at hvis man driver virksomhed, så gælder der andre [b]juridiske[/b] spilleregler end hvis man er dødelig privat, det var ikke et værdiindlæg. Den skelnen gik vist over hovedet på dig.

Staten har nemlig ret til virksomhedernes samarbejdsvilje, sålænge disse inddriver skatter og afgifter. Hvis jeg betaler moms på en vare så regner jeg da også med at den havner i statskassen, tilsvarende når der trækkes a-skat af min løn. Og det har Skat ret til at checke, og fint med mig. Men ikke som en fribillet til at checke alle data som beviseligt er urelaterede.

Nøjagtig som det er i dag på ringbindsniveau.

4. oktober 2010 kl. 11:29
Skat vil kopiere virksomheders harddiske

(Disclaimer: Har ikke læst forslaget!)

I dag har Skat jo ret til at komme på uanmeldt besøg på enhver virksomhedsadresse og forlange at se seneste regnskabsbilag og bogføringer. Større virksomheder adskiller som regel allerede regnskaber fra f.eks. produktudviklingsdetaljer, så SÅFREMT lovforslaget er udformet ordentligt, vil det jo alene påvirke hvor skattemedarbejderne opholder sig imens de gennemgår et potentielt omfattende regnskabsmateriale.

Finurlig finte: At drive virksomhed er ikke en ret, det er et privilegium, idet man jo (som regel) indeholder statens afgifter (moms, lønsum, A-skat, etc.) indtil de afregnes, i mange tilfælde uden at stille sikkerhed herfor. Finte to: Skat er som regel meget venligt og imødekommende inden for det mandat, de har.

(Disclaimer: Har IKKE læst forslaget!)

Hvis forslaget derimod er af symbolpolitik-slagsen (som med minimumsstraffe, visitationszoner, etc.) så er det så usympatisk som det kan være, og en direkte glidebane til 1984 "2.0".

4. oktober 2010 kl. 10:35
Oracles nye monster: Sky-i-en-boks med 360 kerner og 2,8 terabyte DRAM

... for den larmer utroligt meget, og de der blinkende grønne lygter er virkelig irriterende. De havde to af dem stående til Oracle Open World 2010, sammen med tre "Iron Man" dragter.

Den er sikkert fed nok i praksis, men jeg tror at man skal være Iron Man for at få sådan et stål-rack til at være egentligt elastisk...

27. september 2010 kl. 14:01
Gør det tidligt, gør det tit

Et problem ved blot at lægge performancetest ind i testsuiten med alt det andet er at man ikke nødvendigvis har en ordentlig reference. På Eclipse gør vi det, men byggeserverne, som afvikler testsne, er så ujævnt belastet at der af og til kommer falske negativer ind i rapporterne.

Og det er jo fredag, så:http://www.dilbert.com/strips/comic/2010-08-11/

I modsætning til sikkerhed og interoperabilitet så er performance og skalérbarhed heldigvis noget man kan skrive enkle regressionstests til, så man ikke dummer sig ved uopmærksomhed.

10. september 2010 kl. 14:47
XML, JPEG-2000 og UTF-8 bliver standard i Statens Arkiver ? PDF/A stadig ude i kulden

Og så kan man ellers sætte sine data op lige så vanvittigt som man har lyst til, blot man gør det i en XML fil?

Rolig, check dit blodtryk inden du poster.

Der må vel være en specifikation for hvorledes disse filer skal udformes.

Selvfølgelig er der det:

http://www.sa.dk/content/dk/for_statslige_myndigheder/aflevering/it-systemer/aflevering_efter_bekendtgorelse_nr_1007

Det er ganske rigtigt metadata for det egentlige tabelbaserede indhold, der beskrives i en konkret XML dokumenttype.

1. september 2010 kl. 14:09
Mail i skyen?

(Jeg kan nu forstå at du specifikt med "could" mener hostede slutbrugerapplikationer á la SaaS, ASP, whatever, ikke f.eks Amazon EC2, hvor man selv styrer boksene)

Præcisering taget ad notam. Kan dog ikke se at det trækker fra eller lægger til.

Ad a: Jeg kan godt se at der er problem igennem den koncentration af risiko der kommer med stordriften, til gengæld overlades driften så til folk som har en ganske pæn track record. Mere åbenhed ønskes fra leverandørerne i hvordan de f.eks. funktionsadskiller.

Ad c: Enig.

Ad d: Nej, det kan du vel ikke, ligesom du ikke kan få en konkurrencemæssig fordel ved at bruge samme selv-hostede mailsystem eller samme operativsystem. Men det er vel også sjældent at man kan høste i både pose (stordrift) og sæk (differentiering). Og så er der jo også API'erne.

31. august 2010 kl. 17:25
Dyrker du usikker XML, kan hackere penetrere dig

Jeg har skolebørn, der er ældre end XML bombs! Kom lige op på hesten.

Se f.eks. datoen på det nederste link om XXE. Oktober 2002.

31. august 2010 kl. 11:31
Mail i skyen?

Lad os lige tage tingene i rækkefølge, så:

Argumenterne 1 og 4 er jo det samme - omkostninger.

Argument 2 er risikospredning. Hvis du er en lille virksomhed vil en serverfejl koste dig dyrt i tabt arbejdsfortjeneste, (uanset om du har en fungerende backup), eller sikring imod det vil koste dyrt i driftsaftaler. Sandsynligheden for at Google eller andre har én server blandt tusinde, der kører, er bare højere.

Argument 3 lyder lidt spøjst, men kan vel ses i en udviklingsmæssig sammenhæng, hvor dominansen fra de store leverandører (tidligere IBM og nu Microsoft) stille er på vej ud. Eksempel: Pånær specialiserede områder som f.eks. spil er Windows ikke længere krævet i en normal "corporate" verden -- takket være åbne snitflader, virtualisering og rigelig båndbredde (til f.eks. Fjernskrivebord/Citrix). Generation Y forventer derfor frit valg i en anden grad end deres ældre kolleger, ligesom de tilsvarende er klar til at tage mere ansvar for deres egen produktivitet. For funktionærer er PC'en er ikke længere en del af et produktionsapparat som skal følge virksomhedens standardmål på linje med et samlebånd, den er et personligt produktivitetsredskab på linje med en kuglepen. Fleksibiliteten er m.a.o. en mulig konkurrenceparameter i kampen om kandidaterne.

Argument 5 holder hele vejen!!! (ok, det er en personlig præference, eller snarere dis-præference)

Min du overser et par ting også (set fra tilfældet Google Apps):

a) Om sikkerhed: Ved Google Apps kan du (i betalingsudgaven) sætte en valgfri SAML identity provider foran, så kan du selv vælge hvor mange OTP'er og VPN dimser du vil have foran. Tager du noget Amazon kan du jo vælge frit (OpenVPN styrer)

b) Google Apps Script er måske din ven, og der er rigtig mange fornuftige API'er til de forskellige data services.

c) I betalingsudgaven af Google Apps er der ikke reklamer (med mindre du slår dem til!), men muligheden for statistisk analyse af dine data er selvfølgelig til stede.

d) Hvordan stiller det dig dårligere at du har muligheden for at lægge dine data andetsteds? Ellers er der AWS / EC2 / RDS, så kan du bare analysere løs, uden at skulle føre kabler i gulvet selv.

Det er ikke én løsning (egen server i kælder) imod én anden (Google's server i gratisudgave) -- det er et spektrum af forskellige muligheder indimellem disse ekstremer, og der er masser af muligheder for at finde en løsning, der passer ens behov. Hvad med f.eks.: http://developer.amazonwebservices.com/connect/entry.jspa?externalID=3230&categoryID=208

Når alt dette er sagt så udgør Google Apps en concentration af risiko, ingen tvivl om det, som også blev illustreret af Twitter-lækkene. Men dette læk var nu også supereksemplet på de risici man løber hvis man ignorerer grundlæggende sikkerhedsråd. http://techcrunch.com/2009/07/19/the-anatomy-of-the-twitter-attack/

30. august 2010 kl. 16:00
750 hackere kan lamme hele Europa

Og det filmiske vendepunkt ville så være dér hvor terroristerne opdager at i og med at de sætter infrastrukturen ud af spil fjerner de deres eget grundlag for fortsat terror, analogt: Uden vejsider, ingen vejsidebomber.

26. august 2010 kl. 11:06
Digital Tinglysning udviklet med agile metoder

Jeg kender godt fornemmelsen...

Hvor svært kan det være?!

Mit gæt er arrogant, så.

Og med det god weekend.

13. august 2010 kl. 17:06
Digital Tinglysning udviklet med agile metoder

@Thomas:

Nu må du ikke forvirre pessimisme (i forhold tro på en ændring af rammerne indenfor offentlig IT) med skepsis (overfor nye tiltag).

Det er jo for pokker IT-folkene selv, der i de samme 20 år har efterspurgt anvendelsen af dynamiske og iterative udviklingsmetoder. Men gang på gang falder det tilbage på rammerne, hvis rammerne er fast pris, fast tid, fast indhold, så er det jo det, der styres efter.

Hvortil jeg spørger: Hvordan synes I selv, det går? Hvordan har de seneste 20 års store IT-projekter det?

Jamen det er gået galt mange gange, og der er fejlet på alle de områder, du nævner: Modenhed, evner og rammer.

Rammerne har været statisk givne og hænger fast i klassiske styringsprincipper.

Modenhed og evner lider under misforholdet imellem teknologiens indbyggede dynamik (som følger Moores lov), og den træghed der følger "Peter princippet". Og så er det min holdning at mange større projekter ikke bliver besat med kompetente teams fra starten, og at vi som samfund uddanner på for "lavt" niveau eller skal vi sige for statisk. Det kan godt være nogle kan ryste på hovedet af dataloger fordi uddannelsen er så bred og måske ikke lige dækker årets dille, men når der kommer et nyt år og en ny dille, så er vi bedre rustet end dem, der kun har lært én eller to teknologier, og slet ikke evnen til at lære nyt.

Og endelig er det gået godt mange gange, men det rammer sjældent overskrifterne.

13. august 2010 kl. 11:08
Digital Tinglysning udviklet med agile metoder

@Bent: Ked af af være pessimist på dette område: Jeg tvivler meget på at kontraktformen "Konkurrencepræget dialog" kommer til at få væsentlig udbredelse, selvom det er en smuk og nobel tanke.

Læs f.eks. http://www.udbudsportalen.dk/Ret-og-regler/Juridiske-artikler/Konkurrencepraget-dialog-ved-indgaelse-af-sarligt-komplekse-IT-kontrakter/

Agil eller ej, iterativ eller ej, det er de politiske aftaler der styrer de budgetrammer, myndighederne får til store projekter. For at en iterativ proces (baseret på [b]forretningsmæssig[/b] prioritering af den enkelte iteration) skal kunne fungere, skal politikerne således give slip og stole/satse på at myndighederne selv kan hive gevinsterne hjem eller levere de lovede ændringer. Jeg ved ikke om det kræver modigere og mere tillidsfulde politikere eller bare dristigere embedsfolk, men jeg synes ikke at bevægelsen går i den retning. Snarere tværtimod.

Scrum folkene siger at det går galt når folk bruger metoden forkert[...]

Der er de så på linje med RUP-folkene, SSADM folk, V-model folkene, SDSM-folkene, etc.

Indenfor "K&SF-metoden" (Kompetencer & Sund Fornuft) metoden har vi samme holdning!

13. august 2010 kl. 08:30
Digital Tinglysning udviklet med agile metoder

Det er helt generelt for de store projekter (herunder IT projekter): Det hele starter i den politiske proces, der skaffer finansieringen for den type projekter, aftaler om centralisering eller overflytning af opgaver imellem ressortområder, m.v. "Hvad koster det, og hvornår er det færdigt?"

Dermed er vandfaldet startet, og det flyder videre ned i udbudsprocessen, leverandørernes tilbud og den efterfølgende leveranceproces. Forsinkelse følger naturligt.

Og embedsværket ved det jo godt - hvis de er realistiske fra starten risikerer aftalen ikke at blive til noget. Og så havde der aldrig stået nogen "Storebæltsbro" eller hvad det nu handler om.

Væn jer til det: Store offentlige IT projekter => Vandfald. Kun lovgiverne kan ændre dette, og de er jo klassisk mere optaget af hurtige successer der kan høstes inden for samme valgperiode.

12. august 2010 kl. 10:41