Googles Big Data-udviklingsafdeling kan ikke prale med at være indehavere af en officiel rekord i sortering af store datasæt, for resultaterne er ikke officielle. Men formentligt sidder Google på den uofficielle rekord i sortering af data i petabyte-klassen.
Det skriver Google-udvikler Marian Dvorsky i et blogindlæg om, hvordan Google eksperimenterede med værktøjet MapReduce til sortering.
Big Data-holdet, som havde udviklet Googles MapReduce-værktøj, havde adgang til at prøvekøre nye klynger i Googles datacentre, inden de blev sat i drift, og en måde at teste systemerne på var sortering.
Da Googles implementering af reduce-metoden i MapReduce sorterer data leksikografisk, kunne MapReduce bruges til sortering af meget store datasæt. I den størrelsesorden, Google opererede i, var benchmarken GraySort, som kræver en sortering af mindst 100 terabyte data, hvor hver post er 100 byte.
Google sorterede i de første forsøg ti gange så meget, altså én petabyte. I 2007 kunne en Google-klynge sortere én petabyte på 12 timer. I 2011 tog det blot en halv time.
En del af forbedringerne kom fra erfaringer med at optimere delprocesserne, og i 2012 kørte Google den hidtil største sorteringstest med 50 petabyte, der blev sorteret på 23 timer.
De store sorteringstests var imidlertid ikke bare en måde at teste datacenterklyngerne på. De gav også Google erfaringer med MapReduce, som var medvirkende til, at Googles Big Data-folk gik væk fra det første værktøj og i stedet udviklede nye værktøjer.
Et af problemerne ved MapReduce var, at der skulle bruges rigtig mange kræfter på finjustering af systemerne. Den proces var manuel med MapReduce, og derfor byggede Google-udviklerne mere automatisk optimering ind i efterfølgeren Dataflow.
Nå ja, og så fandt Google også ud af, at der simpelthen ikke eksisterer nogen realistiske scenarier, hvor der er brug for at kunne sortere 50 petabyte.