Tekstkorpus

Fra Wikipedia, den frie encyklopædi
Gå til: navigation, søg

Et tekstkorpus (flertal: -korpora) er en samling af maskinelt læsbare tekster, som tjener et bestemt formål, samt overholder regler for indhold og format.

Sprogforskere (datalingvister) anvender tekstkorpus som udgangspunkt for analyser af sprog. Til støtte for analysen er teksternes ord ofte 'annoterede', dvs. forsynet med oplysning om ordklasse, ordstamme eller faste vendinger. På basis heraf analyseres sætningers grammatiske struktur.

Anvendelsesområder er oversættelse og talegenkendelse.

Sprog og litteratur Stub
Denne artikel om sprog eller litteratur er kun påbegyndt. Hvis du ved mere om emnet, kan du hjælpe Wikipedia ved at udvide den.