MIM-GOLD-NER
Nafnakennslamálheildin er útgáfa af gullstaðlinum (MIM-GOLD) þar sem sérnöfn og ýmsar tölulegar einingar (e. named entities) hafa verið mörkuð. Málheildin inniheldur rúmlega 48 þúsund slíkar nafnaeiningar í um milljón tókum. Hana má nota til þjálfunar á nafnaþekkjurum fyrir íslensku.
Um málheildina
Nafnakennslamálheildin MIM-GOLD-NER var unnin í Háskólanum í Reykjavík á tímabilinu 2018–2020, með styrk úr Markáætlun í tungu og tækni fyrir styrkárið 2019. Tveir meistaranemar í máltækni unnu að mörkun málheildarinnar og þjálfun nafnaþekkjara með vélrænum aðferðum.
Málheildin var mörkuð með hálfsjálfvirkri aðferð. Sérnafnalistum með íslenskum mannanöfnum, staðaheitum og fyrirtækjaheitum var safnað og þeir síðan notaðir til að finna og flokka sem flest sérnöfn en reglulegar segðir voru notaðar til að fanga sem flestar tölulegu eininganna. Öll málheildin var svo yfirfarin handvirkt til að leiðrétta villur í sjálfvirku mörkuninni. Átta flokkar sérnafna og tölulegra eininga eru markaðir í málheildinni:
- PERSON – nöfn á mönnum, dýrum og öðrum verum, raunverulegum sem tilbúnum.
- LOCATION – öll staðaheiti, raunveruleg sem tilbúin, svo sem heiti á byggingum, vegum, o.s.frv.; örnefni svo sem landaheiti, borgaheiti, sýslur og önnur stjórnsýslusvæði; einnig fyrirbæri í geimnum, svo sem plánetur.
- ORGANIZATION – heiti fyrirtækja og stofnana, sem og ýmiss konar samtaka, nefnda og ráða, sundlauga, félagsheimila, skóla, trúfélaga, hljómsveita, íþróttafélaga og annarra hópa.
- MISCELLANEOUS – sérnöfn sem ekki falla undir framangreindu flokkana þrjá, svo sem vörur og vörumerki, bóka- og kvikmyndatitlar, ýmsir viðburðir á borð við stríð, íþróttamót, hátíðir og tónleika o.s.frv.
- DATE – tímaeiningar sem ná yfir einn sólarhring eða lengri tíma, svo sem dagsetningar, heiti mánaða, ára, áratuga og alda, ritaðar með tölustöfum eða bókstöfum.
- TIME – tímaeiningar sem ná yfir skemmri tíma en sólarhring, svo sem tímasetningar, klukkustundir, mínútur og sekúndur, ritaðar með tölustöfum eða bókstöfum. 1
- MONEY – nákvæmar upphæðir í hvaða gjaldmiðli sem er, ritaðar með tölustöfum eða bókstöfum.
- PERCENT – prósentutölur, ritaðar með tölustöfum eða bókstöfum.
Málheildin er ætluð til þjálfunar á nafnaþekkjurum fyrir íslensku. Hún er á CoNLL-sniði og fylgt er BIO-sniðinu, til að segja til um stöðu hvers tóka innan sérnafnsins. Nota má málheildina í heild sinni eða velja úr henni þá efnisflokka sem henta best til þjálfunar hverju sinni.
Veittur er aðgangur að nafnakennslamálheildinni með sama sérstaka leyfi og gildir um Gullstaðalinn MÍM-gull, en það byggist á leyfi fyrir fyrir Markaða íslenska málheild (MÍM) þar sem textar Gullstaðalsins voru dregnir úr textum MÍM.
Hafið samband
Hrafn Loftsson
hrafn@ru.is
Svanhvít Lilja Ingólfsdóttir
svanhviti16@ru.is