IceNLP

IceNLP er opinn og frjáls hugbúnaður til að greina íslenskan texta. Hugbúnaðurinn er skrifaður í Java og samanstendur af eftirfarandi einingum: tilreiðara (e. tokeniser), giskara fyrir óþekkt orð (e. unknown word guesser), markara (e. part-of-speech tagger), lemmaldi (e. lemmatiser), þáttara (e. parser) og nafnaþekkjara (e. named-entity recogniser).

Hugbúnaðurinn var upphaflega þróaður í doktorsverkefni Hrafns Loftssonar á árunum 2004-2007 en síðan þá hafa m.a. nemendur í HR og HÍ komið að þróun einstakra eininga.

Um IceNLP

IceNLP er hægt að nota í margvíslegum tilgangi, t.d. til þess að brjóta texta upp í einstaka tóka (merkingarlegar einingar), merkja sérhvern tóka með orðflokki og upplýsingum um beygingu, finna uppflettimynd (nefnimynd, lemmu) tiltekins orðs, og greina formgerð setninga og tengsl einstakra hluta þeirra.

Hægt er að keyra einstakar hugbúnaðareiningar IceNLP sem sjálfstæð forrit eða tengja viðkomandi Java klasa beint við forrit sem verið er að þróa.

Samband

Hrafn Loftsson, Ph.D.
dósent
Háskólinn í Reykjavík - tölvunarfræðideild
Menntavegi 1, 105 Reykjavík
Sími: 5996227 
Netfang: hrafn@ru.is
Vefsíða: http://www.ru.is/kennarar/hrafn/

Tilvísanir

Anton Karl Ingason, Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using Hierachy of Linguistic Identities (HOLI). Í B. Nordström og A. Ranta (ritstj.), Advances in Natural Language Processing, 6th International Conference on NLP, GoTAL 2008, Proceedings. Gautaborg. 

Hrafn Loftsson. 2008. Tagging Icelandic text: A linguistic rule-based approach. Nordic Journal of Linguistics, 31(1), 47-72. 

Hrafn Loftsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2011. Using a morphological database to increase the accuracy in PoS tagging. Í Proceedings of Recent Advances in Natural Language Processing (RANLP 2011). Hissar, Bulgaria. 

Hrafn Loftsson, Ida Kramarczyk, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2009. Improving the PoS tagging accuracy of Icelandic text. Í Proceedings of the 17th Nordic Conference of Computational Linguistics (NODALIDA-2009). Óðinsvéum

Hrafn Loftsson og Eiríkur Rögnvaldsson. 2008. Linguistic richness and technical aspects of an incremental finite-state parser. Í Proceedings of "Partial Parsing 2008", workshop at the 6th International Conference on Language Resources and Evaluation, LREC 2008. Marrakech. 

Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural Language Processing Toolkit for Icelandic. Í Proceedings of InterSpeech 2007, Special session: "Speech and language technology for less-resourced languages". Antwerpen.

Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceParser: An Incremental Finite-State Parser for Icelandic. Í J. Nivre, H-J. Kaalep, K. Muischnek og M. Koit (ritstj.), Proceedings of the 16th Nordic Conference of Computational Linguistics (NODALIDA-2007). Tartu, Estonia. 

Hrafn Loftsson. 2007. Tagging Icelandic Text using a Linguistic and a Statistical Tagger. Í Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the ACL. Rochester, NY.

Hrafn Loftsson. 2006. Tagging a morphologically complex language using heuristics. Í T. Salakoski, F. Ginter, S. Pyysalo og T. Pahikkala (ritstj.), Advances in Natural Language Processing, 5th International Conference on NLP, FinTAL 2006, Proceedings. Turku.

Hrafn Loftsson. 2006. Tagging Icelandic text: An experiment with integrations and combinations of taggers. Language Resources and Evaluation, 40(2):175-181.