Gullstaðallinn er málheild með um einni milljón orða af textum. Orð í textunum voru mörkuð með sjálfvirkum aðferðum og síðan leiðrétt handvirkt. Textar í málheildinni voru valdir úr textum Markaðrar íslenskrar málheildar (MÍM). Fyrir notkun Gullstaðalsins gildir því leyfi sem byggist á leyfi fyrir MÍM.
Sækja Gullstaðalinn:
Sækja þjálfunarpör úr Gullstaðlinum:
Þetta skjal lýsir vinnu við MÍM-GULL skref fyrir skref. Einnig er sagt frá helstu breytingum sem gerðar hafa verið á markaskrá fyrir málfræðilega mörkun íslenskra texta í gegnum tíðina. Í viðauka má finna ítarlegar lýsingar á nýjustu breytingum sem gerðar hafa verið.
Endurskoðað markamengi (sjá nánar í kafla 2.6) byggir á markaskrá sem var gerð fyrir Íslenska orðtíðnibók árið 1991 (Jörgen Pind, Friðrik Magnússon og Stefán Briem, 1991). Þeirri markaskrá hefur áður verið breytt, eins og gerð er grein fyrir hér að neðan. Við þá endurskoðun sem fram fór fyrir útgáfu 20.05 var gengið nokkuð lengra. Til að mynda voru skammstafanir og styttingar settar í sérstakan flokk. Nýr flokkur var búinn til fyrir tákn, sem eru orðin algengari í ritmáli, sérstaklega á netinu. Breytingar voru gerðar á því hvernig erlend orð eru greind o.fl. Nánari grein er gerð fyrir breytingunum í kafla 3.
Mörkuð íslensk málheild (MÍM) var gefin út árið 2013. Málheildin hefur að geyma um 25 milljónir orða af textum sem voru ritaðir á fyrsta áratug 21. aldar.
Á vinnslustigi MÍM var tekið úrtak með um einni milljón lesmálsorða úr 13 mismunandi textaflokkum af 23 textaflokkum í MÍM. Nýja málheildin átti að koma í staðinn fyrir textasafn Íslenskrar orðtíðnibókar sem gullstaðall fyrir þjálfun námfúsra markara fyrir íslensku.
Árið 2013 var veittur aðgangur að útgáfu 0,9 af Gullstaðlinum. 2018 var veittur aðgangur að útgáfu 1,0, árið 2020 var veittur aðgangur að útgáfu 20.05 og árið 2021 að útgáfu 21.05. Hér er gerð grein fyrir því hvernig Gullstaðallinn var þróaður. Ferlinu er skipt í 7 lotur, tölusettar frá 0 til 6.
Sumarið 2009 fékkst styrkur frá Nýsköpunarsjóði námsmanna til að ráða stúdent til þess að hefja verkið. Stúdentinn vann á vegum Hrafns Loftssonar í Háskólanum í Reykjavík. Á Stofnun Árna Magnússonar í íslenskum fræðum var tekið úrtak úr MÍM sem stúdentinn síðan vann úr. Textunum var fyrst skipt upp í setningar og lesmálsorð með tilreiðara sem er hluti af IceNLP-hugbúnaðinum. Síðan voru textarnir markaðir með fimm mörkurum: fnTBL, MXPOST, IceTagger, Bidir og TnT (Hrafn Loftsson o.fl., 2010). Tólið CombiTagger var svo nýtt til að kjósa á milli markaranna. Notuð var aðferð þar sem valið var það mark sem flestir markarar velja fyrir hvert orð. Markararnir voru þjálfaðir á textasafni Íslenskrar orðtíðnibókar. Markamengi Orðtíðnibókarinnar liggur því til grundvallar mörkuninni.
Veturinn 2009–2010 hófst leit að kerfisbundnum villum í Gullstaðlinum. Notuð voru villuleitarforrit sem byggðust á því að skoða samræmi í nafnliðum (NP), forsetningarliðum (PP) og sagnliðum (VP) eins og Hrafn Loftsson (2009) hefur lýst. Farið var handvirkt yfir stóran hluta þeirra villna sem forritið benti á og þær leiðréttar ef markið reyndist rangt. Nákvæmni mörkunarinnar var síðan metin með því að skoða um 1% úrtak (hundraðasta hvert orð). Mark var talið rétt ef allir stafir í markinu (allt að 6) voru réttir. Niðurstaðan varð 92,3% nákvæmni að meðaltali en reyndist á bilinu 87,6–95,5% eftir textaflokkum (Hrafn Loftsson o.fl., 2010). Verkefnið fékk einnig framlag af styrk 0906621123 frá Rannís.
Sumarið 2010 fékkst annar styrkur frá Nýsköpunarsjóði námsmanna til að ráða stúdent til þess að skoða mörkun á öllum orðum í Gullstaðlinum. Byrjað var á að fara yfir villur sem fundust í lotu 0 en höfðu ekki verið leiðréttar (textar úr Morgunblaðinu). Einnig hófst vinna við að fara yfir texta úr prentuðum bókum. Stúdentinn var síðan ráðinn í hlutastarf á skólatíma og á árunum 2010–2011 var farið handvirkt yfir öll lesmálsorð í Gullstaðlinum og mörk leiðrétt. Útgáfa 0,9 af Gullstaðlinum, sem veittur var aðgangur að 2013, hefur að geyma skrárnar eftir þessa umferð af leiðréttingum. Meðalnákvæmni var metin 96,4% og var á bilinu 89,9–98,5% eftir textaflokkum (Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson, 2014). Verkefnið fékk einnig framlög frá META-NORD5 verkefninu og styrk frá mennta- og menningarmálaráðuneytinu.
Í lok árs 2012 hófst síðan næsta leiðréttingarlota. Textarnir voru þá markaðir á sjálfvirkan hátt með markaranum IceTagger sem er hluti af IceNLP-hugbúnaðinum. Skrifað var forrit sem bar saman mörk sem IceTagger skilaði og rétt (að því talið var) mörk í málheildinni. Ef ekki var samsvörun voru orðin merkt. Farið var handvirkt yfir þau orð sem þannig voru merkt. Ráðinn var nemandi í fullt starf sumarið 2013 og í hlutastarf á skólatíma til þess að skoða villumerkingarnar. Nemandinn sem fór yfir mörkin fékk fyrirmæli um að (i) velja markið sem var fyrir í málheildinni; (ii) velja markið sem IceTagger lagði til; eða (iii) finna rétt mark þegar bæði markið í málheildinni og markið sem IceTagger lagði til reyndust röng. Þegar farið hafði verið yfir um 80% af textunum var meðalnákvæmni metin 99,6% og var á bilinu 99,5–100,0% (Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson, 2014). Enn einn nemandi var ráðinn seint á árinu 2013 til þess að ljúka yfirferðinni sem síðan lauk árið 2014. Nákvæmni mörkunar var ekki metin með því að skoða úrtak eftir að þessari yfirferð lauk. Leiðréttingavinnan var styrkt að hluta af META-NORD verkefninu og einnig af mennta- og menningarmálaráðuneytinu.
Árið 2015 gerðu Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson tilraun með að þjálfa markarann Stagger (Östling, 2012) á Orðtíðnibókinni og Gullstaðlinum (Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson, 2015). Hrafn Loftsson og Robert Östling gerðu árið 2013 tilraun til þess að þróa íslenskan markara með því að þjálfa og prófa Stagger á Íslenskri orðtíðnibók og náðu 93,84% nákvæmni með því að beita tífaldri krossprófun (Hrafn Loftsson og Östling, 2013). Þar sem þetta var besti árangur sem náðst hafði við mörkun íslensks texta fram að því var ákveðið að prófa forritið á Gullstaðlinum. Samanburður á nákvæmni Staggers þegar hann var þjálfaður annars vegar á Orðtíðnibókinni og hins vegar á Gullstaðlinum leiddi þó í ljós að töluvert var enn af villum og ósamræmi í Gullstaðlinum (Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson, 2015). Notuð var útgáfa af Gullstaðlinum eftir að handvirkri leiðréttingu var lokið, þ.e. eftir að lotu 2 var lokið. Tilraun Hrafns Loftssonar og Roberts Östling við að þjálfa og prófa Stagger á Orðtíðnibókinni var endurtekin á Gullstaðlinum. Notaðir voru málþættir fyrir íslensku og forritið IceMorphy (hluti af IceNLP-hugbúnaðinum) sem giskar á mörk óþekktra orða. Einnig var bætt við orðasafni sem byggðist á Beygingarlýsingu íslensks nútímamáls (BÍN). Með tífaldri krossprófun fékkst 92,76% meðalnákvæmni fyrir Gullstaðalinn. Í framhaldi af þessari niðurstöðu var ákveðið að vinna frekar að því að leiðrétta og samræma mörk í Gullstaðlinum. Búnir voru til villulistar yfir ósamræmi og stúdentar fengnir til þess að fara yfir þá handvirkt. Einnig var markamenginu (Markaskrá MIM-GULL 1.0) breytt lítillega. Þessari vinnu lauk seint á árinu 2017. Þessi hluti verkefnisins hlaut styrki frá Málvísindastofnun Háskóla Íslands og mennta- og menningarmálaráðuneytinu.
Starkaður Barkarson fékk gögn Gullstaðalsins þegar lotu 3 lauk og þjálfaði Stagger á textunum (Starkaður Barkarson, 2017). Nákvæmni mörkunar hafði ekki verið metin með því að skoða úrtak orða eins og gert var eftir fyrri leiðréttingalotur. Starkaður endurtók tilraun sem Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson höfðu gert árið 2015. Hann framkvæmdi sambærilega tífalda krossprófun og fékk 92,74% nákvæmni fyrir Gullstaðalinn.
Þrátt fyrir lagfæringar á Gullstaðlinum virtist nákvæmnin ekki hækka. Til þess að ganga úr skugga um að tilraunirnar hefðu að öllu leyti verið sambærilegar var tilraun Steinþórs og félaga endurtekin, eftir því sem aðstæður leyfðu. Sami Gullstaðall (fyrir síðustu leiðréttingalotu) var notaður og sama skipting í þjálfunar- og prófunartexta. Gögn BÍN voru ekki að öllu leyti sambærileg þar sem nú var notuð nýrri útgáfa. Með því að nota BÍN og IceMorphy náðist aðeins 92,41% nákvæmni í tilraun Starkaðar, í stað 92,76% í tilraunum Steinþórs og félaga. Starkaður telur því að staðhæfa megi að lagfæringar á Gullstaðlinum hafi leitt til 0,30 prósentustiga aukningar á nákvæmni. Hann telur að orsaka á muninum megi e.t.v. leita í því orða- og endingasafni sem IceMorphy hafði aðgang að því mikill munur er á nákvæmni við greiningu á óþekktum orðum (tæp 15%) en lítill á greiningu þekktra orða (0,09%) (Starkaður Barkarson, 2017).
Í lok árs 2019 var markaskrá fyrir málfræðilega mörkun íslenskra texta endurskoðuð og ný útgáfa gefin út undir heitinu Markaskrá MIM-GULL 2.0. Þessi lota var hluti af Máltækniáætlun fyrir íslensku 2019-2023 sem var fjármögnuð af mennta- og menningarmálaráðuneytinu. Nákvæma lýsingu á þeim breytingum sem gerðar voru á markamenginu í þessari lotu er að finna í Viðauka I. Í kjölfarið var unnið að endurskoðun íslensku gullstaðlanna, Orðtíðnibókar og MÍM-GULLs, með tilliti til endurskoðaðrar markaskrár. Mörkun Gullstaðalsins var varpað yfir í nýtt markamengi og helstu breytingar handyfirfarnar og leiðréttar eftir þörfum til þess að mörkunin væri sem réttust. Þórdís Dröfn Andrésdóttir og Hildur Hafsteinsdóttir unnu að yfirferð á mörkum og leiðréttingum. Ákvarðanir í vafamálum voru teknar í samráði við Starkað Barkarson, Einar Frey Sigurðsson, Steinþór Steingrímsson og Eirík Rögnvaldsson. Vorið 2020 voru endurskoðaðar gerðir af þessum tveimur íslensku gullstöðlum gefnar út og fengu útgáfunúmerin MIM-GOLD 20.05; OTB 20.05 og MIM-OTB 20.05 fyrir pakka þar sem gullstaðlarnir hafa verið sameinaðir í einn. Útgáfunúmerin voru í samræmi við leiðbeiningar um útgáfunúmer efnis sem gefið var út innan máltækniáætlunarinnar. Gullstaðlarnir voru samtímis gefnir út með skiptingu í tíu hluta, til nota við þjálfun og prófanir á málfræðimörkurum.
Í byrjun árs 2021 var hafist handa við að bæta lemmum við MÍM-GULL og var sú útgáfa gefin út í júní sama ár. Textinn hafði verið lemmaður með Nefni (Svanhvít Lilja Ingólfsdóttir o.fl., 2019) nokkrum árum áður og einhver handvirk yfirferð hafði átt sér stað. Árni Davíð Magnússon og Kristján Rúnarsson voru fengnir til að fara yfir lemmurnar og leiðrétta. Í þeirri vinnu voru nokkur mörk löguð. Verkefnið var hluti af Máltækniáætlun fyrir íslensku 2019-2023 sem var fjármögnuð af mennta- og menningarmálaráðuneytinu.
Til þess að auðvelda málfræðigreininguna og ná meira samræmi var markamengi Orðtíðnibókarinnar breytt lítillega í leiðréttingalotum Gullstaðalsins. Þessar breytingar voru gerðar:
Í þessum kafla er því lýst hvaða ákvarðanir voru teknar við mörkun gullstaðlanna. Til að gæta samræmis í mörkun voru allar ákvarðanir skráðar. Með því að fylgja þeim ákvörðunum geta aðrir sem koma hugsanlega til með að marka aðra texta síðar verið í sem mestu samræmi við málheildirnar sem koma út núna.
Hrafn Loftsson. 2009. Correcting a POS-tagged corpus using three complementary methods. Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009), bls. 523–531. Association for Computational Linguistics, Athens, Greece. https://www.aclweb.org/anthology/E09-1060.
Hrafn Loftsson og Robert Östling. 2013. Tagging a morphologically complex language using an averaged perceptron tagger: The case of Icelandic. Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA 2013), bls. 105–119. Linköping University Electronic Press, Sweden, Oslo, Norway. https://www.aclweb.org/anthology/W13-5613.
Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoStagged corpus using existing tools. Proceedings of 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages. LREC 2010, Valetta, Malta. https://www.iscaspeech.org/archive_open/saltmil/SALTMIL2010_Proceedings.pdf#page=57.
Jörgen Pind, Friðrik Magnússon og Stefán Briem (ritstj.). 1991. Íslensk orðtíðnibók. Orðabók Háskólans, Reykjavík.
Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2014. Correcting Errors in a New Gold Standard for Tagging Icelandic Text. Proceedings of the 9th International Conference on Language Resources and Evaluation. LREC 2014, Reykjavík, Iceland. http://www.lrec-conf.org/proceedings/lrec2014/summaries/677.html.
Starkaður Barkarson. 2017. Þjálfun málfræðimarkarans Stagger með nýjum gullstaðli. MA-ritgerð, Háskóla Íslands, Reykjavík. http://hdl.handle.net/1946/29474.
Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2015. Analysing Inconsistencies and Errors in PoS Tagging in two Icelandic Gold Standards. Proceedings of the 20th Nordic Conference of Computational Linguistics, bls. 287–291. NODALIDA 2015, Vilnius, Lithuania. https://www.aclweb.org/anthology/W15-1838.
Steinþór Steingrímsson, Örvar Kárason og Hrafn Loftsson. 2019. Augmenting a BiLSTM tagger with a morphological lexicon and a lexical category identification step. Proceedings of the International Conference Recent Advances in Natural Language Processing. RANLP 2019, Varna, Bulgaria.
Svanhvít Lilja Ingólfsdóttir, Hrafn Loftsson, Jón Friðrik Daðason, Kristín Bjarnadóttir. 2019. Nefnir: A high accuracy lemmatizer for Icelandic. Proceedings of the 22nd Nordic Conference on Computational Linguistics, bls. 310–315. Turku, Finland.
Östling, Robert. 2012. Stagger: A modern POS tagger for Swedish. Proceedings of the Swedish Language Technology Conference, SLTC. Lund, Sweden.
Í þessari útgáfu voru fleiri breytingar gerðar á markamengi, eins og fram kom í inngangi. Gerð er grein fyrir þeim hér.