Íslenskt orðanet

Íslenskt orðanet (The Icelandic Word Web) lýsir merkingarvenslum íslenskra orða og orðasambanda eins og þau birtast sem merkingarlega einræðar einingar. Þótt nafnið gæti bent til annars er það óskylt hinu velþekkta Princeton WordNet og hliðstæðum verkum sem hafa verið unnin fyrir ýmis tungumál á undanförnum árum. Upphaflegur efniviður er safn orðasambanda og samsetninga sem hefur að geyma rösklega 200 þúsund orðasambönd af ólíku tagi og um 100 þúsund samsetningar. Á síðari stigum hafa merkingarvenslin einkum verið rakin og greind út frá hliðskipuðum samböndum orða og orðasambanda eins og þau birtast í textaumhverfi.

  • Leita í Íslensku orðaneti.

Um Íslenskt orðanet

Íslenskt orðanet er rannsóknarverkefni sem felur í sér greiningu á merkingarvenslum íslenskra orða og orðasambanda. Greiningaraðferðin byggist á þeirri forsendu að lesa megi merkingarvensl orða út úr setningarlegum og orðmyndunarlegum venslum þeirra eins og þau birtast í orðasamböndum og samsetningum. Upphaflegur efniviður er safn orðasambanda og samsetninga með samræmdri framsetningu sem hefur að geyma rösklega 200 þúsund orðasambönd af ólíku tagi og um 100 þúsund samsetningar. Safnið sameinar efni Stóru orðabókarinnar um íslenska málnotkun (Jón Hilmar Jónsson 2005) og Orðasambandaskrá Stofnunar Árna Magnússonar í íslenskum fræðum (áður Orðabókar Háskólans). Á síðari stigum hafa merkingarvenslin einkum verið rakin og greind út frá hliðskipuðum samböndum orða og orðasambanda (sem tengd eru með og) eins og þau birtast í textaumhverfi, og þá leitað fanga í hinu gríðarmikla textasafni vefsíðunnar Tímarit.is. Allt þetta efni er tengt flettulista sem sameinar um 250 þúsund einyrtar og fleiryrtar flettur.

Merkingarvenslin sem um ræðir eru af ólíku tagi. Skýrustu og nálægustu venslin eru fólgin í samheitum og andheitum en greining samheitavenslanna á sér stað í ólíku samhengi og sá greinarmunur endurspeglast í aðgreindum venslategundum, samheitum, grannheitum og skyldheitum (sjá nánar á vefsíðunni). Megináhersla er lögð gildi efniviðarins sjálfs, þar sem markmiðið er m.a. að fá fram tölulegan vitnisburð um merkingarlega nálægð og skyldleikastig orða sem borin eru saman. Greiningin skilar jafnframt merkingarlega samstæðum orðaforða sem flokkaður er nánar og skipað undir tiltekin hugtakaheiti og merkingarsvið.

Fletturnar eru merkingarlega einræðar og það hefur mótandi áhrif á lýsingu merkingarvenslanna. Einræðingin hefur m.a. víðtæk áhrif á flettumyndir sagna þar sem rökliðirnir hverju sinni eru hluti af flettustrengnum og sagnasambönd af ýmsu tagi fá sjálfstæða stöðu innan flettulistans.

Í almennum orðabókum koma einstök flettiorð fram sem formbundnar einingar og geta búið yfir mörgum ólíkum merkingarbrigðum sem eftir atvikum er skipað í aðgreinda merkingarliði. Í Íslensku orðaneti er orðið og flettan hins vegar í brennidepli sem merkingarleg eining. Því á ekki við að setja umfangi flettulistans sérstakar hömlur heldur ræðst gildi flettnanna af því hvort þær eru í sýnilegum venslum við aðrar flettur. Fleiryrtar flettur (merkingarbær orðasambönd) eru fyrirferðarmiklar í flettulista orðanetsins. Samræmd framsetning þeirra gefur færi á að marka flettustrengina setningarlega og ná með því fram virku samspili setningarlegrar og merkingarlegrar flokkunar.

Gögn verkefnisins eru vistuð í tveimur aðgreindum gagnagrunnum. Grunnurinn Þesárus geymir allan efniviðinn (þ.á m. allt upphaflegt orðabókarefni og safn textadæma sem greiningin styðst við). Það efni sem uppfyllir ákveðin greiningarskilyrði birtist sem veforðabókin Íslenskt orðanet á vefsíðunni. Efni vefsíðunnar eykst jafnt og þétt eftir því sem greiningunni miðar áfram. Í júlí 2022 eru virkar flettur rösklega 200.000 (þar af tæplega helmingur fleiryrtar), parasambönd eru alls rúmlega 270.000 í tengslum við 85.000 flettur, og hugtakaflokkunin nær til tæplega 155.000 flettna (nánari sundurgreining kemur fram á vefsíðunni undir fyrirsögninni Staðtölur).

Samband

  • Jón Hilmar Jónsson
  • rannsóknaprófessor emeritus
  • Stofnun Árna Magnússonar í íslenskum fræðum
  • Laugavegi 13, 101 Reykjavík
  • Sími: 525-4436
  • Netfang: jhj@hi.is

Tilvísanir

  • Jón Hilmar Jónsson. 2009a. Ordforbindelser: Grunnelementer i ordboken? LexicoNordica 16: 161-179.
  • Jón Hilmar Jónsson. 2009b. Lemmatisation of Multi-word Lexical Units: Motivation and Benefits. Í: Bergenholtz, Henning, Sandro Nielsen and Sven Tarp (ritstj.): Lexicography at a Crossroads. Dictionaries and Encyclopedias Today, Lexicographical Tools Tomorrow, s. 165-194. Bern: Peter Lang.
  • Jón Hilmar Jónsson. 2009c. Lexicographic description: An onomasiological approach on the basis of phraseology. Í: Nielsen, Sandro, og Sven Tarp (ritstj.) :Lexicography in the 21st Century. In honor of Henning Bergenholtz, s. 257-280. Amsterdam: John Benjamins Publishing Company. 
  • Jón Hilmar Jónsson. 2012a. Að fanga orðaforðann: orðanet í þágu orðabókar. Orð og tunga 14: 39-65. 
  • Jón Hilmar Jónsson. 2012b. Adverb og adverbialer: En forsømt ordklasse i ordbøkene. Í: Eaker, Birgit o. fl. (ritstj.): Nordiska studier i lexikografi 11. Rapport från Konferensen om lexikografi i Norden, Lund 24-27 maj 2011, s. 367-376. Lundi. 
  • Jón Hilmar Jónsson. 2005. Stóra orðabókin um íslenska málnotkun. Reykjavík: JPV útgáfa. 2005 
  • Jón Hilmar Jónsson, and Þórdís Úlfarsdóttir. 2011. Íslenskt orðanet: Et skritt mot en allmennspråklig onomasiologisk ordbok. LexicoNordica 18: 87-109.