Datalingvistik

Fra Wikipedia, den frie encyklopædi
Gå til: navigation, søg

Datalingvistik er den videnskabelige disciplin der beskæftiger sig med natursprogsbehandling i mennesker og navnlig computere. Datalingvistik har dermed som underdiscipliner den datamatiske behandling af fonetiske/fonologiske, morfologiske og syntaktiske data samt diskursdata. Disse data er henholdsvis (sprog)lyde, orddele, ord og sætninger og deres organisering. Da natursprogsbehandling også dækker formel semantik og logik, er dette også emner inden for datalingvistikken.

En af datalingvistikkens hovedformål har traditionelt været at opstille formelle grammatikker for forskellige aspekter af sproget, dvs. regelsæt der definerer fx den uendelige mængde af et sprogs grammatisk korrekte sætninger uden at overgeneralisere til ugrammatiske sætninger. Tilsvarende regel-baserede modeller har været tilstræbt for diverse andre sprogstrukturelle fænomener.

De mange undtagelser der altid findes til formelle regler man kan stille op for sproglige fænomener har imidlertid ført til en dalende interesse for formelle grammatikker til fordel for undersøgelser af faktiske forekommende sproglige mønstre i store tekstsamlinger (kaldet korpora). Datalingvistikken har dermed taget en drejning hen imod datadreven eller statistisk natursprogsbehandling og korpuslingvistik.



Eksterne henvisninger[redigér | redigér wikikode]

  • ACL – Association for Computational Linguistics.
  • EACL – ACL, European Chapter.
  • NEALT – North European Association for Language Technology.


  • ACL – Association for Computational Linguistics' årlige konference.
  • ESSLLI – European Summer School in Language, Logic, and Information. Årlig sommerskole.
  • NODALIDA – Nordiske DataLingvistik Dage. Nordisk sprogteknologikonference hvert andet år.