Scanner man et dokument, forventer man en nøjagtig kopi - så vidt den valgte opløsning tillader. Men bruger man en Xerox-scanner til opgaven, kan man risikere at få et resultat ud i den anden ende med helt andre tal end på originalen.
Det skriver den tyske datalog David Kriesel i et blogindlæg, efter at have oplevet fænomenet og studeret det nærmere. Og fejlen var til at reproducere. Når tallene var tilpas små, men stadigt tydeligt læsbare, blev nogle af dem ændret, typisk fra et seks-tal til et otte-tal.
Årsagen til denne form for ’dokumentfalsk’ fik han - med lidt hjælp fra læserne af bloggen - indkredset til den komprimeringsalgoritme, der omdanner den rene billedscanning til en noget mindre PDF-fil. JBIG2-algoritmen, som Xerox bruger i scannerne, bruger nemlig mønstergenkendelse, så for eksempel tal kan blive genkendt. I stedet for at beskrive hvert tal grafisk bliver de erstattet af et ’færdigt’ tal, hvilket giver mulighed for højere komprimering og dermed mindre filstørrelser.
Problemet er tilsyneladende, at genkendelsen fejler, når tallene er små. David Kriesel testede med tal sat op med Ariel i 7 punkt-størrelse, og her blev seks-taller tit byttet ud med algoritmens færdigpakkede otte-tal.
Den oprindelige scanning, der fik David Kriesel til at opdage fejlen, var en plantegning af et hus, og her blev tre små tal i tegningen ændret konsekvent. Den ene scanner, han testede med, en Xerox Workcentre 7535, havde samme forkerte resultat hver gang, mens en anden, en Workcentre 7556, lavede fejl mere tilfældigt. Tal fra andre dele af dokumentet blev brugt i stedet, så der altså blev flyttet rundt på tal på plantegningen.
Der blev ikke fra brugerens side brugt OCR (optisk tekstgenkendelse), men det skete altså åbenbart i selve komprimeringsalgoritmen.
Se dokumentationen for fejlen i David Kriesels blogindlæg