MerkOr

MerkOr er nýstárlegt íslenskt orðasafn sem byggist á merkingarvenslum milli orða og flokkun þeirra í merkingarsvið. Allt innihald MerkOr varð til með sjálfvirkum aðferðum sem eiga að nýtast til þess að búa til fleiri orðasöfn af þessu tagi, jafnt fyrir íslensku sem önnur tungumál

Markmiðið er að MerkOr nýtist fyrst og fremst í íslenskri máltækni, t.d. í hugbúnaðargerð þar sem þörf er á merkingarupplýsingum um íslensk orð. Jafnframt er vel hugsanlegt að MerkOr nýtist á annan hátt, til að mynda í málfræðirannsóknum og íslenskunámi.

  • Sækja MerkOr á GitHub með LGPL leyfi.

Um MerkOr

MerkOr er merkingarbrunnur íslenskra orða. Hann hefur að geyma mörg hundruð þúsund merkingarvensl sem öll voru fundin með sjálfvirkum aðferðum. MerkOr greiningarforritin voru látin greina mikið magn íslenskra texta, finna setningafræðileg mynstur og nýta ýmsa tölfræðiútreikninga til þess að ákvarða merkingarvensl.

MerkOr er nýstárlegt orðasafn, engar skýringar er að finna við einstök orð heldur eru orðin tengd hvert öðru með merkingarvenslum og flokkuð eftir merkingarsviðum. Merkingarbrunnurinn er fyrst og fremst ætlaður til notkunar í hugbúnaði sem fæst við íslenska texta. Á leitarsíðunni er einnig hægt að fletta upp orðum á hefðbundinn hátt.

Ef slegið er inn leitarorð má sjá ýmis vensl þess við önnur orð. Alls eru um eitt hundrað tegundir merkingarvensla í MerkOr gagnagrunninum. Nokkur þeirra algengustu eru nefnd hér, eins og t.d. og sem gefur til kynna að tvö orð eru oft notuð samhliða, t.d. mamma og pabbi. Eiginleiki segir að fyrra orðið sé eiginleiki þess seinna eða að seinna orðið hafi það sem felst í fyrra orðinu. Til dæmis er mælaborð eiginleiki bíls og bíll hefur (alla jafna) mælaborð. Lýsir merkir að ákveðið lýsingarorð getur átt við eftirfarandi nafnorð eins og háhælaður lýsir skór. Einnig er nokkuð um vensl milli sagnorða og þeirra nafnorða sem geta staðið sem andlag með þeim, eins og drekka andlag vatn. Öll önnur vensl eru milli nafnorða og flest nota forsetningar eins og á, af, hjá, með o.s.frv. Orðin í niðurstöðunum eru alltaf í nefnifalli og því stendur kaffi á kanna en ekki kaffi á könnu.

Orðunum er einnig skipt í merkingarflokka og eru til listar yfir þau orð sem tilheyra hverjum merkingarflokki um sig. Til dæmis tilheyrir orðið móðurmál merkingarflokknum TUNGUMÁL.

Röð tengdra orða í leitarniðurstöðum ræðst af styrkleika venslanna. Það orð sem hefur sterkustu tengslin við leitarorðið samkvæmt ákveðnum venslum er efst á listanum og það orð sem hefur sterkustu tengslin við svokallaða miðju merkingarflokksins er efst á þeim lista.

Öll orðin í leitarniðurstöðunum eru tenglar á önnur orð og þannig er hægt að smella sig í gegnum MerkOr án þess að slá inn nýtt leitarorð. Vert er þó að hafa í huga að um er að ræða niðurstöður fengnar með sjálfvirkum aðferðum sem óhjákvæmilega innihalda einhverjar villur.

Grundvallarþættir í MerkOr gagnagrunninum eru:

  • Orðasafnsþættir (lexical item). Inniheldur auðkenni (id), nefnimynd (lemma), merkingarnúmer (sense number) og orðflokk (wordclass).
    • Dæmi: [id=109799, lemma=skúr_1, wordclass=noun]
  • Tengsl (relation). Tengsl tengja saman tvo orðasafnsþætti með tengslagerð (sjá næst). Hver tengsl hafa ákveðið treystistig; því hærra treystistig því betra / þeim mun dæmigerðara.
    • Dæmi: [id=893, from_item_id=52069, relation_id=7, to_item_id=34948, confidence_score=366.806]
  • Tengslagerð (relation type). Tilgreinir tegund tengslanna milli tveggja orðasafnsþátta.
    • Dæmi: [id=7, name=coord_noun, description=og]
  • Klasi. Klasi (cluster) er raðaður listi af orðasafnsþáttum sem tilheyra sama merkingarléni. Hvert atriði í klasanum hefur ákveðið stig sem segir til um hversu vel atriðið passar viðkomandi klasa. Færri en 10.000 þættir tilheyra klasa.

MerkOrCore forritaskilin og skipunarlínuviðmótið má nota til þess að leita í gagnagrunninum. Dæmi um fyrirspurnir sem má leggja fyrir forritaskilin/skipunarlínuviðmótið:

  • Tilheyrir orðið fleiri en einum orðasafnsþætti? (t.d. ef fyrirspurnin er sækja orðasafnsþætti (lexical items) fyrir orðið 'skúr' væri niðurstaðan tveir orðasafnsþættir, 'skúr' sem no. kk. annars vegar og 'skúr' sem no. kvk. hins vegar)
  • Hvaða orðatengsl eru til fyrir ákveðið orð?
  • Hvaða tengsla hafa hæst treystistig fyrir ákveðið orð?
  • Hvaða tengsl hafa hæst treystistig fyrir ákveðna tengslagerð? (bestu dæmi um ákveðin tengsl)
  • Hvaða merkingarklasa tilheyrir orðið?
  • Eru til klasar sem tákna ákveðið merkingarlén (svo sem ÍÞRÓTTIR)?
  • Hvaða orðasafnsþættir tengjast ákveðnu léni?
  • o.s.frv.

Verkefnið var kostað af styrk til Rannsóknarverkefnisins "Hagkvæm máltækni utan ensku – íslenska tilraunin" sem hlaut styrk frá Rannsóknasjóði árin 2009-2011.

FYRIRVARI
Allt innihald MerkOr gagnagrunnsins byggist á sjálfvirkum greiningaraðferðum. Ekkert í niðurstöðunum endurspeglar því þekkingu eða skoðanir höfundar MerkOrs .

Samband