Harvard konverterer 6,4 millioner juridiske dokumenter til åbne data

Illustration: LuMaxArt, BigStock
Harvard Law School har konverteret millionvis af dokumenter til åbne formater, som kan tilgås på internettet. De mange data kan komme til at fungere som maskinlærings-materiale til robot-advokater.

Harvard Law School har i de sidste to år scannet omkring 100.000 sider om dagen. De mange papirer stammer fra den amerikanske retspraksis, og dækker alle publicerede retssager frem til juni 2018.

Alle sagerne kan tilgås på internettet via hjemmesiden Caselaw Access Project.

Den tidligste sag er fra 1658, hvilket nok mest er af historisk interesse, men de senere dokumenter viser sig at være praktisk anvendelige for teknologivirksomheder, der arbejder med kunstig intelligens.

De mange dokumenter er nemlig oplagt føde for maskinlæringsalgoritmer.

»Det er et fantastisk initiativ af Harvard, og den helt rigtige retning for industrien,« skriver Shmuli Goldberg, marketingchef hos det amerikanske firma LawGeex, som udvikler kunstig intelligens til juridiske formål, i en e-mail til Version2.

»Dataene skal omdannes fra digitale kopier til strukturerede data, før de kan bruges til at træne en AI-model. Men de kan, og bliver ekstremt værdifulde i fremtiden, for dem som vil åbne op for adgangen til justits, og skabe mere åbenhed om lovmæssige processer.«

Kunstige advokater

LawGeex er blot én af en række virksomheder, som søger at føre den kunstige intelligens sammen med den menneskelige jura. Maskinlæring spiller allerede en stor rolle i advokathuse, hvor kunstig intelligens automatiserer mange opgaver, som før blev udført af advokatfuldmægtige.

Lawgeex’ egne kunstige intelligens vandt en konkurrence i kontraktevaluering, over menneskelige advokater.

Men det er ikke en billig proces at træne en AI-model, og det er her, Harvards data kan blive en stor hjælp.

»At lære gennem eksempler, i stedet for via et fast sæt regler, gør det muligt for teknologivirksomheder at analysere komplekse informationer. Men det er dyrt og langsomt at samle træningsdata, og selv store teknologivirksomheder kæmper med det,« skriver Gil Rosenblum, Data Team Leader hos LawGeex.

»Det er ikke nok at samle og mærke data, hvis de data bare er mere af det, vi allerede har. Vi arbejder på at udsætte vores algoritme for varierede eksempler, så den kan skelne mellem forskellige juridiske begreber. På den måde er det at træne en AI-model, meget ligesom at træne en ny advokat.«

Lynscanning og OCR

I alt har Harvard scannet omkring 40 millioner sider fra 40.000 indbundne bøger fra Harvard Law Schools bibliotek

Hver bog fik manuelt indtastede metadata så som titel, jurisdiktion, publiceringsdato. Derefter blev bøgerne kørt gennem en højhastighedsscanner, Derefter blev OCR-software – optisk tegngenkendelse, som omdanner tekst i billeder til maskinlæselig tekst – anvendt på hver side.

De vigtigste felter – sagsnavn, anklage, domstol og domsdatoen er blevet rettet for præcision, mens resten af sagen er rå OCR.

Case.law er allerede blevet brugt til flere formål. Blandt andet kan man få genereret en limerick ud af retspraksis.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (0)
Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017
Jobfinder Logo
Job fra Jobfinder