MerkOr er nýstárlegt íslenskt orðasafn sem byggist á merkingarvenslum milli orða og flokkun þeirra í merkingarsvið. Allt innihald MerkOr varð til með sjálfvirkum aðferðum sem eiga að nýtast til þess að búa til fleiri orðasöfn af þessu tagi, jafnt fyrir íslensku sem önnur tungumál
Markmiðið er að MerkOr nýtist fyrst og fremst í íslenskri máltækni, t.d. í hugbúnaðargerð þar sem þörf er á merkingarupplýsingum um íslensk orð. Jafnframt er vel hugsanlegt að MerkOr nýtist á annan hátt, til að mynda í málfræðirannsóknum og íslenskunámi.
MerkOr er merkingarbrunnur íslenskra orða. Hann hefur að geyma mörg hundruð þúsund merkingarvensl sem öll voru fundin með sjálfvirkum aðferðum. MerkOr greiningarforritin voru látin greina mikið magn íslenskra texta, finna setningafræðileg mynstur og nýta ýmsa tölfræðiútreikninga til þess að ákvarða merkingarvensl.
MerkOr er nýstárlegt orðasafn, engar skýringar er að finna við einstök orð heldur eru orðin tengd hvert öðru með merkingarvenslum og flokkuð eftir merkingarsviðum. Merkingarbrunnurinn er fyrst og fremst ætlaður til notkunar í hugbúnaði sem fæst við íslenska texta. Á leitarsíðunni er einnig hægt að fletta upp orðum á hefðbundinn hátt.
Ef slegið er inn leitarorð má sjá ýmis vensl þess við önnur orð. Alls eru um eitt hundrað tegundir merkingarvensla í MerkOr gagnagrunninum. Nokkur þeirra algengustu eru nefnd hér, eins og t.d. og sem gefur til kynna að tvö orð eru oft notuð samhliða, t.d. mamma og pabbi. Eiginleiki segir að fyrra orðið sé eiginleiki þess seinna eða að seinna orðið hafi það sem felst í fyrra orðinu. Til dæmis er mælaborð eiginleiki bíls og bíll hefur (alla jafna) mælaborð. Lýsir merkir að ákveðið lýsingarorð getur átt við eftirfarandi nafnorð eins og háhælaður lýsir skór. Einnig er nokkuð um vensl milli sagnorða og þeirra nafnorða sem geta staðið sem andlag með þeim, eins og drekka andlag vatn. Öll önnur vensl eru milli nafnorða og flest nota forsetningar eins og á, af, hjá, með o.s.frv. Orðin í niðurstöðunum eru alltaf í nefnifalli og því stendur kaffi á kanna en ekki kaffi á könnu.
Orðunum er einnig skipt í merkingarflokka og eru til listar yfir þau orð sem tilheyra hverjum merkingarflokki um sig. Til dæmis tilheyrir orðið móðurmál merkingarflokknum TUNGUMÁL.
Röð tengdra orða í leitarniðurstöðum ræðst af styrkleika venslanna. Það orð sem hefur sterkustu tengslin við leitarorðið samkvæmt ákveðnum venslum er efst á listanum og það orð sem hefur sterkustu tengslin við svokallaða miðju merkingarflokksins er efst á þeim lista.
Öll orðin í leitarniðurstöðunum eru tenglar á önnur orð og þannig er hægt að smella sig í gegnum MerkOr án þess að slá inn nýtt leitarorð. Vert er þó að hafa í huga að um er að ræða niðurstöður fengnar með sjálfvirkum aðferðum sem óhjákvæmilega innihalda einhverjar villur.
Grundvallarþættir í MerkOr gagnagrunninum eru:
MerkOrCore forritaskilin og skipunarlínuviðmótið má nota til þess að leita í gagnagrunninum. Dæmi um fyrirspurnir sem má leggja fyrir forritaskilin/skipunarlínuviðmótið:
Verkefnið var kostað af styrk til Rannsóknarverkefnisins "Hagkvæm máltækni utan ensku – íslenska tilraunin" sem hlaut styrk frá Rannsóknasjóði árin 2009-2011.
FYRIRVARI
Allt innihald MerkOr gagnagrunnsins byggist á sjálfvirkum greiningaraðferðum. Ekkert í niðurstöðunum endurspeglar því þekkingu eða skoðanir höfundar MerkOrs .