Gullstaðall (MÍM-gull)

Gullstaðallinn er málheild með um einni milljón orða af textum. Orð í textunum voru mörkuð með sjálfvirkum aðferðum og síðan leiðrétt handvirkt. Textar í málheildinni voru valdir úr textum Markaðrar íslenskrar málheildar (MÍM). Fyrir notkun Gullstaðalsins gildir því leyfi sem byggist á leyfi fyrir MÍM. 

Sækja Gullstaðalinn:

  • Sækja útg. 0,9 hér.
  • Sækja útg. 1,0 hér.
  • Sækja útg. 20.05 hér.
  • Sækja útg. 21.05 hér.

Sækja þjálfunarpör úr Gullstaðlinum:

  • Sækja útg. 21.05 hér.
  • Sækja útg. 20.05 hér
  • Sækja útg. 1,0 hér.

1. Inngangur

Þetta skjal lýsir vinnu við MÍM-GULL skref fyrir skref. Einnig er sagt frá helstu breytingum sem gerðar hafa verið á markaskrá fyrir málfræðilega mörkun íslenskra texta í gegnum tíðina. Í viðauka má finna ítarlegar lýsingar á nýjustu breytingum sem gerðar hafa verið.

2. Fyrri breytingar á markamenginu og vinna við MÍM-GULL

Endurskoðað markamengi (sjá nánar í kafla 2.6) byggir á markaskrá sem var gerð fyrir Íslenska orðtíðnibók árið 1991 (Jörgen Pind, Friðrik Magnússon og Stefán Briem, 1991). Þeirri markaskrá hefur áður verið breytt, eins og gerð er grein fyrir hér að neðan. Við þá endurskoðun sem fram fór fyrir útgáfu 20.05 var gengið nokkuð lengra. Til að mynda voru skammstafanir og styttingar settar í sérstakan flokk. Nýr flokkur var búinn til fyrir tákn, sem eru orðin algengari í ritmáli, sérstaklega á netinu. Breytingar voru gerðar á því hvernig erlend orð eru greind o.fl. Nánari grein er gerð fyrir breytingunum í kafla 3.

Mörkuð íslensk málheild (MÍM) var gefin út árið 2013. Málheildin hefur að geyma um 25 milljónir orða af textum sem voru ritaðir á fyrsta áratug 21. aldar.

Á vinnslustigi MÍM var tekið úrtak með um einni milljón lesmálsorða úr 13 mismunandi textaflokkum af 23 textaflokkum í MÍM. Nýja málheildin átti að koma í staðinn fyrir textasafn Íslenskrar orðtíðnibókar sem gullstaðall fyrir þjálfun námfúsra markara fyrir íslensku.

Árið 2013 var veittur aðgangur að útgáfu 0,9 af Gullstaðlinum. 2018 var veittur aðgangur að útgáfu 1,0, árið 2020 var veittur aðgangur að útgáfu 20.05 og árið 2021 að útgáfu 21.05. Hér er gerð grein fyrir því hvernig Gullstaðallinn var þróaður. Ferlinu er skipt í 7 lotur, tölusettar frá 0 til 6.

2.1 Lota 0

Sumarið 2009 fékkst styrkur frá Nýsköpunarsjóði námsmanna til að ráða stúdent til þess að hefja verkið. Stúdentinn vann á vegum Hrafns Loftssonar í Háskólanum í Reykjavík. Á Stofnun Árna Magnússonar í íslenskum fræðum var tekið úrtak úr MÍM sem stúdentinn síðan vann úr. Textunum var fyrst skipt upp í setningar og lesmálsorð með tilreiðara sem er hluti af IceNLP-hugbúnaðinum. Síðan voru textarnir markaðir með fimm mörkurum: fnTBL, MXPOST, IceTagger, Bidir og TnT (Hrafn Loftsson o.fl., 2010). Tólið CombiTagger var svo nýtt til að kjósa á milli markaranna. Notuð var aðferð þar sem valið var það mark sem flestir markarar velja fyrir hvert orð. Markararnir voru þjálfaðir á textasafni Íslenskrar orðtíðnibókar. Markamengi Orðtíðnibókarinnar liggur því til grundvallar mörkuninni.

Veturinn 2009–2010 hófst leit að kerfisbundnum villum í Gullstaðlinum. Notuð voru villuleitarforrit sem byggðust á því að skoða samræmi í nafnliðum (NP), forsetningarliðum (PP) og sagnliðum (VP) eins og Hrafn Loftsson (2009) hefur lýst. Farið var handvirkt yfir stóran hluta þeirra villna sem forritið benti á og þær leiðréttar ef markið reyndist rangt. Nákvæmni mörkunarinnar var síðan metin með því að skoða um 1% úrtak (hundraðasta hvert orð). Mark var talið rétt ef allir stafir í markinu (allt að 6) voru réttir. Niðurstaðan varð 92,3% nákvæmni að meðaltali en reyndist á bilinu 87,6–95,5% eftir textaflokkum (Hrafn Loftsson o.fl., 2010). Verkefnið fékk einnig framlag af styrk 0906621123 frá Rannís.

2.2 Lota 1

Sumarið 2010 fékkst annar styrkur frá Nýsköpunarsjóði námsmanna til að ráða stúdent til þess að skoða mörkun á öllum orðum í Gullstaðlinum. Byrjað var á að fara yfir villur sem fundust í lotu 0 en höfðu ekki verið leiðréttar (textar úr Morgunblaðinu). Einnig hófst vinna við að fara yfir texta úr prentuðum bókum. Stúdentinn var síðan ráðinn í hlutastarf á skólatíma og á árunum 2010–2011 var farið handvirkt yfir öll lesmálsorð í Gullstaðlinum og mörk leiðrétt. Útgáfa 0,9 af Gullstaðlinum, sem veittur var aðgangur að 2013, hefur að geyma skrárnar eftir þessa umferð af leiðréttingum. Meðalnákvæmni var metin 96,4% og var á bilinu 89,9–98,5% eftir textaflokkum (Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson, 2014). Verkefnið fékk einnig framlög frá META-NORD5 verkefninu og styrk frá mennta- og menningarmálaráðuneytinu.

2.3 Lota 2

Í lok árs 2012 hófst síðan næsta leiðréttingarlota. Textarnir voru þá markaðir á sjálfvirkan hátt með markaranum IceTagger sem er hluti af IceNLP-hugbúnaðinum. Skrifað var forrit sem bar saman mörk sem IceTagger skilaði og rétt (að því talið var) mörk í málheildinni. Ef ekki var samsvörun voru orðin merkt. Farið var handvirkt yfir þau orð sem þannig voru merkt. Ráðinn var nemandi í fullt starf sumarið 2013 og í hlutastarf á skólatíma til þess að skoða villumerkingarnar. Nemandinn sem fór yfir mörkin fékk fyrirmæli um að (i) velja markið sem var fyrir í málheildinni; (ii) velja markið sem IceTagger lagði til; eða (iii) finna rétt mark þegar bæði markið í málheildinni og markið sem IceTagger lagði til reyndust röng. Þegar farið hafði verið yfir um 80% af textunum var meðalnákvæmni metin 99,6% og var á bilinu 99,5–100,0% (Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson, 2014). Enn einn nemandi var ráðinn seint á árinu 2013 til þess að ljúka yfirferðinni sem síðan lauk árið 2014. Nákvæmni mörkunar var ekki metin með því að skoða úrtak eftir að þessari yfirferð lauk. Leiðréttingavinnan var styrkt að hluta af META-NORD verkefninu og einnig af mennta- og menningarmálaráðuneytinu.

2.4 Lota 3

Árið 2015 gerðu Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson tilraun með að þjálfa markarann Stagger (Östling, 2012) á Orðtíðnibókinni og Gullstaðlinum (Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson, 2015). Hrafn Loftsson og Robert Östling gerðu árið 2013 tilraun til þess að þróa íslenskan markara með því að þjálfa og prófa Stagger á Íslenskri orðtíðnibók og náðu 93,84% nákvæmni með því að beita tífaldri krossprófun (Hrafn Loftsson og Östling, 2013). Þar sem þetta var besti árangur sem náðst hafði við mörkun íslensks texta fram að því var ákveðið að prófa forritið á Gullstaðlinum. Samanburður á nákvæmni Staggers þegar hann var þjálfaður annars vegar á Orðtíðnibókinni og hins vegar á Gullstaðlinum leiddi þó í ljós að töluvert var enn af villum og ósamræmi í Gullstaðlinum (Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson, 2015). Notuð var útgáfa af Gullstaðlinum eftir að handvirkri leiðréttingu var lokið, þ.e. eftir að lotu 2 var lokið. Tilraun Hrafns Loftssonar og Roberts Östling við að þjálfa og prófa Stagger á Orðtíðnibókinni var endurtekin á Gullstaðlinum. Notaðir voru málþættir fyrir íslensku og forritið IceMorphy (hluti af IceNLP-hugbúnaðinum) sem giskar á mörk óþekktra orða. Einnig var bætt við orðasafni sem byggðist á Beygingarlýsingu íslensks nútímamáls (BÍN). Með tífaldri krossprófun fékkst 92,76% meðalnákvæmni fyrir Gullstaðalinn. Í framhaldi af þessari niðurstöðu var ákveðið að vinna frekar að því að leiðrétta og samræma mörk í Gullstaðlinum. Búnir voru til villulistar yfir ósamræmi og stúdentar fengnir til þess að fara yfir þá handvirkt. Einnig var markamenginu (Markaskrá MIM-GULL 1.0) breytt lítillega. Þessari vinnu lauk seint á árinu 2017. Þessi hluti verkefnisins hlaut styrki frá Málvísindastofnun Háskóla Íslands og mennta- og menningarmálaráðuneytinu.

2.5 Lota 4

Starkaður Barkarson fékk gögn Gullstaðalsins þegar lotu 3 lauk og þjálfaði Stagger á textunum (Starkaður Barkarson, 2017). Nákvæmni mörkunar hafði ekki verið metin með því að skoða úrtak orða eins og gert var eftir fyrri leiðréttingalotur. Starkaður endurtók tilraun sem Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson höfðu gert árið 2015. Hann framkvæmdi sambærilega tífalda krossprófun og fékk 92,74% nákvæmni fyrir Gullstaðalinn.

Þrátt fyrir lagfæringar á Gullstaðlinum virtist nákvæmnin ekki hækka. Til þess að ganga úr skugga um að tilraunirnar hefðu að öllu leyti verið sambærilegar var tilraun Steinþórs og félaga endurtekin, eftir því sem aðstæður leyfðu. Sami Gullstaðall (fyrir síðustu leiðréttingalotu) var notaður og sama skipting í þjálfunar- og prófunartexta. Gögn BÍN voru ekki að öllu leyti sambærileg þar sem nú var notuð nýrri útgáfa. Með því að nota BÍN og IceMorphy náðist aðeins 92,41% nákvæmni í tilraun Starkaðar, í stað 92,76% í tilraunum Steinþórs og félaga. Starkaður telur því að staðhæfa megi að lagfæringar á Gullstaðlinum hafi leitt til 0,30 prósentustiga aukningar á nákvæmni. Hann telur að orsaka á muninum megi e.t.v. leita í því orða- og endingasafni sem IceMorphy hafði aðgang að því mikill munur er á nákvæmni við greiningu á óþekktum orðum (tæp 15%) en lítill á greiningu þekktra orða (0,09%) (Starkaður Barkarson, 2017).

2.6 Lota 5

Í lok árs 2019 var markaskrá fyrir málfræðilega mörkun íslenskra texta endurskoðuð og ný útgáfa gefin út undir heitinu Markaskrá MIM-GULL 2.0. Þessi lota var hluti af Máltækniáætlun fyrir íslensku 2019-2023 sem var fjármögnuð af mennta- og menningarmálaráðuneytinu. Nákvæma lýsingu á þeim breytingum sem gerðar voru á markamenginu í þessari lotu er að finna í Viðauka I. Í kjölfarið var unnið að endurskoðun íslensku gullstaðlanna, Orðtíðnibókar og MÍM-GULLs, með tilliti til endurskoðaðrar markaskrár. Mörkun Gullstaðalsins var varpað yfir í nýtt markamengi og helstu breytingar handyfirfarnar og leiðréttar eftir þörfum til þess að mörkunin væri sem réttust. Þórdís Dröfn Andrésdóttir og Hildur Hafsteinsdóttir unnu að yfirferð á mörkum og leiðréttingum. Ákvarðanir í vafamálum voru teknar í samráði við Starkað Barkarson, Einar Frey Sigurðsson, Steinþór Steingrímsson og Eirík Rögnvaldsson. Vorið 2020 voru endurskoðaðar gerðir af þessum tveimur íslensku gullstöðlum gefnar út og fengu útgáfunúmerin MIM-GOLD 20.05; OTB 20.05 og MIM-OTB 20.05 fyrir pakka þar sem gullstaðlarnir hafa verið sameinaðir í einn. Útgáfunúmerin voru í samræmi við leiðbeiningar um útgáfunúmer efnis sem gefið var út innan máltækniáætlunarinnar. Gullstaðlarnir voru samtímis gefnir út með skiptingu í tíu hluta, til nota við þjálfun og prófanir á málfræðimörkurum.

2.7 Lota 6

Í byrjun árs 2021 var hafist handa við að bæta lemmum við MÍM-GULL og var sú útgáfa gefin út í júní sama ár. Textinn hafði verið lemmaður með Nefni (Svanhvít Lilja Ingólfsdóttir o.fl., 2019) nokkrum árum áður og einhver handvirk yfirferð hafði átt sér stað. Árni Davíð Magnússon og Kristján Rúnarsson voru fengnir til að fara yfir lemmurnar og leiðrétta. Í þeirri vinnu voru nokkur mörk löguð. Verkefnið var hluti af Máltækniáætlun fyrir íslensku 2019-2023 sem var fjármögnuð af mennta- og menningarmálaráðuneytinu.

2.8 Breytingar á markamengi

Til þess að auðvelda málfræðigreininguna og ná meira samræmi var markamengi Orðtíðnibókarinnar breytt lítillega í leiðréttingalotum Gullstaðalsins. Þessar breytingar voru gerðar:

3 Leiðbeiningar við mörkun gullstaðla

Í þessum kafla er því lýst hvaða ákvarðanir voru teknar við mörkun gullstaðlanna. Til að gæta samræmis í mörkun voru allar ákvarðanir skráðar. Með því að fylgja þeim ákvörðunum geta aðrir sem koma hugsanlega til með að marka aðra texta síðar verið í sem mestu samræmi við málheildirnar sem koma út núna.

3.1 Skammstafanir og styttingar

3.1.1 Skammstöfun eða stytting?
  • Ef orðmynd stendur fyrir aðeins eitt orð og er fyrri hluti þess (t.d. lögg. = löggiltur, hæstv. = hæstvirtur), eða ef orð er samsett og það stafsett með byrjun tveggja eða fleiri hluta (t.d. lög.stj. = lögreglustjóri, framkv.stj. = framkvæmdastjóri) og orðmynd samanstendur af þremur eða fleiri stöfum, þá er um styttingu að ræða en ekki skammstöfun.
  • Þannig eru lögg., hæstv., lög.stj. og framkv.stj. styttingar.
3.1.2 Erlendar skammstafanir sem ekki eru sérnöfn
  • Erlendar styttingar og skammstafanir (sem standa ekki fyrir sérnöfn) eru e.

3.2 Íslensk sérnöfn

  • Í fleiryrtum sérnöfnum er aðeins fyrsta orðið merkt sem sérnafn. Dæmi um þetta er Bóksala stúdenta:
    Bóksala nven-s
    stúdenta nkfe

3.3 Erlend sérnöfn

3.3.1 Almennar reglur
  • Nöfn persóna: eru alltaf greind sem n----s (t.d. eru allir hlutar í nafni knattspyrnumannsins Alessandro Del Piero markaðir með n----s).
  • Nöfn staða: eru alltaf greind sem n----s.
  • Einyrt heiti stofnana og fyrirtækja: eru greind sem n----s.
  • Löng, fleiryrt sérnöfn: Almennt gildir sú regla að fyrsta orðið er n----s og rest e, nema þau sem eru sérnöfn að eigin verðleikum. Nöfn persóna og staða falla ekki undir þetta, sbr. hér að ofan.
3.3.2 Sérstök tilvik
  • Heiti undirtegunda bíla (t.d. Skoda Suberb, VW Passat, Renault Megane) eru greind sem n----s, enda eru þau mikið notuð ein og sér og eru þar með sérnöfn að eigin verðleikum.
    – Ef eitthvað bætist á eftir undirheitinu (t.d. Renault Megane Saloon) er það greint sem e.
  • Nöfn erlendra íþróttaliða sem eru kennd við borgir eða staði (t.d. Los Angeles Lakers, New York Knicks, Utah Jazz) eru mörkuð með n----s, enda eru þau notuð mikið ein og sér og þar með sérnöfn að eigin verðleikum.
  • Erlendir titlar (t.d. Dame Judi Dench, Mr Feather, Major Miriam Óskarsdóttir) eru greindir sem e þar sem þeir eru ekki beinlínis hluti af sérnafninu sem fylgir á eftir. Hins vegar eru titlar af sama tagi n----s þegar þeir eru fyrsti hluti sérnafns, eins og kvikmyndatitils (t.d. Mr Deeds, Mrs Doubtfire).
  • Erlend, fleiryrt nöfn fyrirtækja, hljómsveita, bókatitlar, kvikmyndatitlar, titlar á listaverkum, ráðstefnum og hátíðum eru mörkuð á þennan hátt:
    Y n----s
    tu e
    mamá e
    también e
  • Ef eiginleg sérnöfn eru inni í runum af þessu tagi fá þau samt greininguna n----s.

    3.4 Íslenskt eða erlent?

    • Erlend orð sem eru löguð að íslenskri beygingu (t.d. Steinwayinum og Bösendorferinn) eru greind sem íslensk orð:
      Steinwayinum nkeþgs
      Bösendorferinn nkengs

    3.5 Annað

    • Tákn: m eða pa
      – Ef hefðbundið greinarmerki stendur fyrir orð er það m. Dæmi: ‘-’ í frá klukkan 13-15, ‘/’ í km/klst.

    Tilvísanir

    Hrafn Loftsson. 2009. Correcting a POS-tagged corpus using three complementary methods. Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009), bls. 523–531. Association for Computational Linguistics, Athens, Greece. https://www.aclweb.org/anthology/E09-1060.

    Hrafn Loftsson og Robert Östling. 2013. Tagging a morphologically complex language using an averaged perceptron tagger: The case of Icelandic. Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA 2013), bls. 105–119. Linköping University Electronic Press, Sweden, Oslo, Norway. https://www.aclweb.org/anthology/W13-5613.

    Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoStagged corpus using existing tools. Proceedings of 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages. LREC 2010, Valetta, Malta. https://www.iscaspeech.org/archive_open/saltmil/SALTMIL2010_Proceedings.pdf#page=57.

    Jörgen Pind, Friðrik Magnússon og Stefán Briem (ritstj.). 1991. Íslensk orðtíðnibók. Orðabók Háskólans, Reykjavík.

    Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2014. Correcting Errors in a New Gold Standard for Tagging Icelandic Text. Proceedings of the 9th International Conference on Language Resources and Evaluation. LREC 2014, Reykjavík, Iceland. http://www.lrec-conf.org/proceedings/lrec2014/summaries/677.html.

    Starkaður Barkarson. 2017. Þjálfun málfræðimarkarans Stagger með nýjum gullstaðli. MA-ritgerð, Háskóla Íslands, Reykjavík. http://hdl.handle.net/1946/29474.

    Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2015. Analysing Inconsistencies and Errors in PoS Tagging in two Icelandic Gold Standards. Proceedings of the 20th Nordic Conference of Computational Linguistics, bls. 287–291. NODALIDA 2015, Vilnius, Lithuania. https://www.aclweb.org/anthology/W15-1838.

    Steinþór Steingrímsson, Örvar Kárason og Hrafn Loftsson. 2019. Augmenting a BiLSTM tagger with a morphological lexicon and a lexical category identification step. Proceedings of the International Conference Recent Advances in Natural Language Processing. RANLP 2019, Varna, Bulgaria.

    Svanhvít Lilja Ingólfsdóttir, Hrafn Loftsson, Jón Friðrik Daðason, Kristín Bjarnadóttir. 2019. Nefnir: A high accuracy lemmatizer for Icelandic. Proceedings of the 22nd Nordic Conference on Computational Linguistics, bls. 310–315. Turku, Finland.

    Östling, Robert. 2012. Stagger: A modern POS tagger for Swedish. Proceedings of the Swedish Language Technology Conference, SLTC. Lund, Sweden.

    Viðauki I

    1 Breytingar á markamengi í lotu 5

    Í þessari útgáfu voru fleiri breytingar gerðar á markamengi, eins og fram kom í inngangi. Gerð er grein fyrir þeim hér.

    1.1 Forsetningar

    • ao, og ae verða af (atviksorð sem stýrir falli).

    1.2 Sagnorð

    • Það sem var greintsem sagnbót (ssg eða ssm) er nú greintsem sögn(lh.)-þt.-hk.-et.-nf. (sþghen eða sþmhen).

    1.3 Nafnorð

    • Tákn fyrir ókyngreint (nx…) var fjarlægt út úr mörkum fyrir nafnorð. Í staðinn notum við - (n-…).

    1.4 Erlend orð

    • Erlend sérnöfn verða greind sem n----s, þ.e. nafnorð sem ekki eru greind í kyn, tölu eða fall og hafa ekki greini.
    • Erlendar skammstafanir verða greindar með sama hætti ef þær eru ígildi sérnafns (t.d. CIA, NATO, LFC og KFC).

    1.5 Skammstafanir og styttingar

    • Skammstafanir og styttingar eru í sérstökum flokki þar sem greiningarstrengurinn byrjar á k.
    • Eiginlegar skammstafanir eru markaðar með ks. En ef skammstöfun er ígildi nafns (t.d. KR, VR eða ÓRG) þá er það greint sem n----s. Það gildir hvort sem skammstöfun er erlend eða íslensk (sjá ofar).
    • Styttingar eru markaðar með kt. Styttingar eru t.d. lögg. (fyrir löggiltur) eða hæstv. (fyrir hæstvirtur), þ.e. þar sem orð er fyrri hluti orðs auk punkts. Einnig er grunn- í grunn- og framhaldsskólar greint sem kt.

    1.6 Greinarmerki

    • pl, lok setninga: .⁉ (alltaf)
    • pk, komma: , ; (nema ef , er notað sem gæsalöpp)
    • pg, gæsalappir: « » „ “ ‟ ” ” , ‘ (nema ef , er komma eða ’ er notað sem úrfellingamerki)
    • pa, önnur greinarmerki: ( ) { } _ : - – — … (ásamt öllum greinarmerkjum sem ekki falla í ofangreinda flokka)

    1.7 Mörg greinarmerki í röð

    • Tveir eða fleiri punktar (t.d. …), spurningarmerki (t.d. ⁇) eða upphrópunarmerki (t.d. ‼!) í röð eða samsetning upphrópunarmerkja og spurningarmerkja (t.d. ⁉!) er greint saman sem pa.
    • Önnur greinarmerki eru slitin í sundur og hvert og eitt greint.

    1.8 Tákn

    • Öll tákn mörkuð sem m
      – stærðfræðitákn: + − × ÷ = < > [ ]
      – tjákn: :) ♥
      – önnur tákn: $ % § © •
    • Tákn mætti þá skilgreina sem flest það sem hvorki inniheldur staf né tölu og er ekki greinarmerki – nema þá ef nokkur greinarmerki í röð mynda tjákn.
    • Tákni má skipta út fyrir orð (t.d. $ = dollari, + = plús).