Korpuslingvistik

Fra Wikipedia, den frie encyklopædi
Gå til: navigation, søg

Korpuslingvistik er en gren af sprogforskningen, som baserer den sproglige analyse på en tekstsamling, et tekstkorpus.

Et tekstkorpus er et større antal tekster eller evt. talesekvenser, typisk i digital form, som er samlet med henblik på analyse af sprogets grammatik eller brug. Teksternes enkelte ord annoteres eller tagges, så ordklasse, grundform (lemma), syntaktisk funktion og andre egenskaber kan indgå i computerstøttet analyse. Kvantitative analyser afdækker typisk forekomsten og hyppigheden af sproglige fænomener eller mønstre, med henblik på at forklare og fortolke. [1]

Korpuslingvistik inddrager andre grene af sprogforskningen: morfologi, der er studiet af ord og ordklasser, herunder ordenes bøjning og grundform, samt syntaks, der er studiet af, hvordan ord forbindes, så de danner sætninger. Rækkefølgen af sætningsled som subjekt, verballed og objekt følger bestemte regler, grammatikken for det pågældende sprog.

Korpuslingvistikken søger at afdække regler eller træk i naturlige sprog ved at analysere den faktiske brug af sproget. Sproget ændrer sig over tid og præges af den sammenhæng, som det anvendes i. For eksempel kommer geografisk variation til udtryk i form af dialekter, ligesom forskellige professioner udvikler hver deres fagsprog. Til støtte for analyserne er der udviklet programmel til opgørelse af hyppigheden af ord, ordkombinationer og bestemte kombinationer af sætningsled.

Se også

Eksterne henvisninger[redigér | redigér wikikode]

Referencer
  1. Hans Jørgen Klarskov Mortensen: Når elever skriver engelsk. Systime. Side 10f.