IceNLP

http://hdl.handle.net/20.500.12537/8

 

IceNLP er opinn og frjáls hugbúnaður til að greina íslenskan texta. Hugbúnaðurinn er skrifaður í Java og samanstendur af eftirfarandi einingum: tilreiðara (e. tokeniser), giskara fyrir óþekkt orð (e. unknown word guesser), markara (e. part-of-speech tagger), lemmaldi (e. lemmatiser), þáttara (e. parser) og nafnaþekkjara (e. named-entity recogniser).

Hugbúnaðurinn var upphaflega þróaður í doktorsverkefni Hrafns Loftssonar á árunum 2004-2007 en síðan þá hafa m.a. nemendur í HR og HÍ komið að þróun einstakra eininga.

Um IceNLP

IceNLP er hægt að nota í margvíslegum tilgangi, t.d. til þess að brjóta texta upp í einstaka tóka (merkingarlegar einingar), merkja sérhvern tóka með orðflokki og upplýsingum um beygingu, finna uppflettimynd (nefnimynd, lemmu) tiltekins orðs, og greina formgerð setninga og tengsl einstakra hluta þeirra.

Hægt er að keyra einstakar hugbúnaðareiningar IceNLP sem sjálfstæð forrit eða tengja viðkomandi Java klasa beint við forrit sem verið er að þróa.

Samband

  • Hrafn Loftsson, Ph.D.
  • dósent
  • Háskólinn í Reykjavík - tölvunarfræðideild
  • Menntavegi 1, 105 Reykjavík
  • Sími: 5996227 
  • Netfang: hrafn@ru.is
  • Vefsíða: http://www.ru.is/kennarar/hrafn/

Tilvísanir