Google gør sprog-AI til open source

Illustration: Jakub Jirsak/Bigstock
Ny teknik kan gøre algoritmer i stand til at forstå ords sammenhæng.

Google har gjort en ny teknik til behandling af naturligt sprog til open source. Det skriver firmaet i et blogindlæg.

Med udgivelsen, som hedder BERT (Bidirectional Encoder Representations from Transformers), kan man træne modeller til 'spørgsmål og svar-systemer', tillige med andre modeller. Det tager cirka 30 minutter på Googles specielle processorer til maskinlæring eller et par timer på en grafik-processor.

Udgivelsen indeholder kildekode, som er bygget oven på Googles populære AI-bibliotek Tensorflow, og kommer med en række fortrænede sprogmodeller.

I en videnskabelig artikel viser Googles forskere, hvordan de med modellerne kan få resultater, som er sammenlignelige med det bedste i forskningsverdenen, på blandt andet Stanford Question Answering Dataset (SQuAD v1.1), som benyttes til at vurdere forskellige AI-algoritmers færdigheder i forhold til hinanden.

En af de udfordringerne inden for sprogbehandling, også kaldet NLP (Natural Language Processing), er manglen på træningsdata.

Da NLP er et bredt felt med mange forskellige opgaver, indeholder de fleste opgave-specifikke datasæt kun et par tusind eller et par hundrede tusind træningseksempler, som er opmærket af mennesker.

Såkaldte deep learning-modeller, der benytter neurale netværk med mange 'hidden layers', benytter fordelene ved større mængder data, der forbedres, når de trænes på millioner eller milliarder af træningseksempler.

For at lukke dette hul i datamængden har forskerne udviklet en række teknikker til at træne sprogmodeller rettet mod generelle anvendelser ved hjælp af den enorme mængde ikke-opmærket tekst på internettet.

Den fortrænede model kan derefter finjusteres til NLP-opgaver på mindre datasæt, til formål som at svare på spørgsmål samt 'sentiment'-analyse, hvor eksempelvis filmanmeldelser opdeles i positive og negative. Teknikken skulle resultere i betydelige nøjagtige forbedringer i forhold til træning på disse datasæt fra bunden.

I modsætning til tidligere modeller kan BERT gennemskue den sammenhæng, som et ord indgår i, og er trænet på tekst fra Wikipedia.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere