Mörkuð íslensk málheild

Í Markaðri íslenskri málheild (MÍM) má finna um 25 milljónir orða af fjölbreyttum textum sem eru geymdir í stöðluðu sniði í rafrænu formi. Orð í textunum eru greind málfræðilega og hverjum texta fylgja bókfræðilegar upplýsingar um verkið sem textinn er úr. Málheildin er ætluð fyrir málrannsóknir og til notkunar í máltækniverkefnum.

Leita í MÍM
Sækja MÍM hér.

Þegar birtar eru niðurstöður sem eru fengnar með því að nota gögn Markaðrar íslenskrar málheildar vinsamlegast vitnið í:

Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Proceedings of the Workshop on Language Technology for Normalisation of Less-Resourced Languages -SaLTMiL 8 – AfLaT2012, s. 67-72. Istanbúl, Tyrklandi.

Um MÍM

Hvað er mörkuð málheild?

Með markaðri málheild (e. tagged corpus) er átt við safn fjölbreyttra texta sem eru geymdir í stöðluðu sniði í rafrænu formi. Til þess að textarnir verði sem gagnlegastir við málrannsóknir eru þeir greindir á margvíslegan hátt. Hverri orðmynd fylgir þá greiningarstrengur, mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Auk þess fylgir nefnimynd (e. lemma) með hverri orðmynd, t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar.

Gerð íslenskrar málheildar

Árið 2004 var hafist handa við að búa til markaða málheild fyrir íslenskt samtímamál á Orðabók Háskólans og síðar undir merkjum Stofnunar Árna Magnússonar í íslenskum fræðum eftir að Orðabók Háskólans hafði sameinast Stofnun Árna Magnússonar á Ísland árið 2006. Stefnt var að því að í málheildinni yrðu um 25 milljónir orða úr textum af ýmsu tagi sem gæfu sem raunsannasta mynd af ritaðri íslensku á 21. öld. Textunum var safnað á tímabilinu 2006-2010. Textarnir sem safnað var eru ritaðir á tímabilinu 2000-2010. Aðeins var safnað textum sem voru aðgengilegir í tölvutæku formi.

Til þess að unnt yrði að nota málheildina í máltækniverkefnum var lögð áhersla á að afla leyfa frá rétthöfum fyrir notkun textanna. Með aðstoð lögfræðings var útbúin sérstök samþykkisyfirlýsing sem rétthafar undirrituðu.

Leitað var eftir samþykki rétthafa til þess að fá að nýta alla texta sem eru varðir af höfundarrétti. Sérstakar ráðstafanir voru gerðar til þess að afla heimilda til þess að nota texta úr útgefnum bókum. Gert var samkomulag við Hagþenki (Félag höfunda fræðirita og kennslugagna), Rithöfundasamband Íslands og Félag íslenskra bókaútgefenda. Þessir aðilar mæltu með verkefninu við félagsmenn sína. Leitað var eftir samþykki höfunda útgefinna bóka og viðkomandi útgefendur lögðu til texta verkanna. Safnað var efni úr fræðiritum, bókum um margvísleg hagnýt efni og skáldsögum.

Textar í málheildinni hafa verið flokkaðir í 23 flokka. Textar úr útgefnum bókum eru stærsti textaflokkurinn og eru tæplega 24% af textum málheildarinnar. Næststærsti textaflokkurinn er textar úr dagblöðum (Morgunblaðinu og Fréttablaðinu), um 22%. Textar úr margvíslegum prentuðum tímaritum eru um 9,5% af textum málheildarinnar. Auk höfundavarins efnis var safnað nokkru af efni frá opinberum aðilum sem ekki er varið höfundarrétti eins og ræðum alþingismanna (um 2% af málheildinni), textum af vefsetrum ráðuneyta (6,8%), textum frumvarpa og laga af vef Alþingis (1,6%) og textum dóma frá Hæstarétti og Héraðsdómi Reykjavíkur (3,5%).

Listi yfir alla texta í málheildinni.

Rétthöfum var kynnt notkunarleyfið sem notendur þurfa að samþykkja til þess að fá afrit af textum málheildarinnar.

Úr málheildinni má lesa ýmiss konar gagnlegan fróðleik. Þar má nefna upplýsingar um tíðni orðflokka, orða og beygingarmynda, orðasambönd, setningargerð, merkingu o.fl. Slík gögn nýtast m.a. við orðabókargerð, gerð leiðréttingarforrita, þýðingarforrita, búnaðar fyrir talgreiningu og talgervingu og gerð hjálparforrita fyrir blinda, heyrnarskerta, hreyfihamlaða og þá sem glíma við skriftar- og lestarörðugleika og einnig fyrir kennslu.

Samastarfsaðilar og styrkveitendur

Verkið var kostað af tungutækniverkefni menntamálaráðuneytisins fyrstu árin. Rannsóknarverkefnið Tilbrigði í setningagerð lét í té gögn um talað mál. Verkefnið var einnig kostað af styrk til Rannsóknarverkefnisins "Hagkvæm máltækni utan ensku – íslenska tilraunin" sem hlaut styrk frá Rannsóknasjóði árin 2009-2011. Frá febrúar 2011 til janúar 2013 var verkið styrkt af íslenskum hluta verkefnisins META-NORD sem er samstarfsverkefni Norðurlanda og Eystrasaltslanda og hluti af META-NET. Einstakir hlutar verkefnisins hafa verið unnir með tilstyrk styrkja úr Rannsóknasjóði Háskóla Íslands, Nýsköpunarsjóði námsmanna og verkefninu Nordisk Netordbog. Stofnun Árna Magnússonar í íslenskum fræðum er aðili að Máltæknisetri. Fræðimenn sem eiga aðild að Máltæknisetri hafa tekið þátt í gerð málheildarinnar.

Mörkun málheildarinnar

Málheildin var mörkuð með vélrænum aðferðum. Notað var sérstakt kerfi, CorpusTagger, sem var gert til þess að marka Gullstaðalinn fyrir mörkun texta (Hrafn Loftsson o.fl., 2010). Textanum var skipt í setningar og lesmálsorð með IceNLP-hugbúnaðinum. Síðan var textinn markaður með fjórum mörkurum: fnTBL, MXPOST (Ratnaparkhi, 1996), TriTagger sem er hluti af IceNLP-hugbúnaðinum og er endurgerð af Markov-markaranum (HMM) TnT (Brants, 2000) og IceTagger (Hrafn Loftsson, 2008) sem er reglumarkari og er einnig hluti af IceNLP-hugbúnaðinum. Markararnir fnTBL, MXPOST og TriTagger eru námfúsir markarar og voru þjálfaðir á textum Íslenskar orðtíðnibókar. Sömu textar voru notaðir við þróun reglumarkarans IceTagger. Að lokum var kosið á milli markanna með CombiTagger. Málheildin er því mörkuð með markaskrá Orðtíðnibókarinnar með þeirri undantekningu að sérnöfn eru ekki greind í mannanöfn, staðarnöfn og önnur sérnöfn. Nefnimyndir voru fundnar með forritinu Lemmald (Anton Ingason o.fl., 2008) sem einnig er hluti af IceNLP-hugbúnaðinum. Nákvæmni mörkunar hefur verið metin 88,1-95,1% eftir textaflokkum (Hrafn Loftsson o.fl., 2010) og nákvæmni nefnimynda er um 90%.

Markaskrá MÍM.

Tíðni orða

Nefnimyndir fyrir orð í textum málheildarinnar voru fundnar með forritinu Lemmald eins og áður sagði. Nákvæmni nefnimynda hefur verið lauslega metin um 90%. Til þess að fá áreiðanlegar tölur um tíðni nefnimynda þarf nákvæmni þeirra að vera töluvert hærri. Til þess að fá samt einhverja hugmynd er sýnd tíðni fyrir nefnimyndir sem koma fyrir oftar en 100 sinnum. Rangar nefnimyndir koma yfirleitt fyrir sjaldnar en það. Í Excel-skjalinu eru 14 blaðsíður. Á fyrstu síðunni (freq) eru nefnimyndir sem koma fyrir oftar en 100 sinnum í tíðniröð. Gefinn er upp orðflokkur (pos), þ.e. fyrsti stafur í markinu. Þessir stafir eru notaðir: a: atviksorð (adverbs); c: samtengingar (conjunctions); e: erlend orð; f: fornöfn (pronouns); g: laus greinir (article); l: lýsingarorð (adjectives); n: nafnorð (nouns); s: sagnir (verbs); t: töluorð (numerals); x: ógreind orð (unspecified). Athuga ber að forsetningar eru greindar sem atviksorð. Í annarri síðu (alphabetic) eru orðin í stafrófsröð. Í næstu síðu (freq(alphab)) eru orðin í tíðniröð en þeim sem hafa sömu tíðni er raðað í stafrófsröð. Í næstu síðu (pos(freq(alphb))) er raðað eftir orðflokki, síðan tíðni og síðast stafrófi. Síðan kemur ein síða fyrir hvern orðflokk þar sem orðum er raðað í tíðniröð og síðan stafrófsröð.

Nota MIM

Málheildin er aðgengileg á tvenns konar hátt:

Leita í textunum. Leitin er aðgengileg á málheildarsíðu Stofnunar Árna Magnússonar. Nýta má málfræðilegar upplýsingar til þess að skilgreina leitina og jafnframt fást bókfræðilegar upplýsingar um textana sem leitarniðurstöður eru úr. Leit skilar orðstöðulykli og tengli á upplýsingar um hvaðan hvert textadæmi er fengið. Hér er listi yfir textaflokka sem unnt er að leita í. Á leitarsíðunni má velja hver þessara flokka til leitar. Leitarviðmótið byggist á sænska leitarkerfinu Korp.
Sækja textana. Í öðru lagi má sækja texta málheildarinnar og nota þá í máltækniverkefnum. Væntanlegir notendur þurfa að samþykkja sérstakt notkunarleyfi. Textarnir eru aðgengilegir í sérstöku xml-sniði, TEI P4, sem er skilgreint af TEI (Text Encoding Initiative). Lýsigögn fylgja öllum textum. Sækja.

Verk leidd af Markaðri íslenskri málheild

Mikilvægasta afurð málheildarinnar er Gullstaðallinn fyrir mörkun texta sem er málheild með um einni milljón orða af textum sem voru valdir úr textum Markaðrar íslenskrar málheildar. Gert er ráð fyrir að Gullstaðallinn verði notaður fyrir þjálfun námfúsra markara.

Fólkið á bak við málheildina

Verkefnisstjóri

Sigrún Helgadóttir

Verkefnisstjórn

Aðrir samstarfsmenn

Auður Þórunn Rögnvaldsdóttir (undirbúningur verkefnisins)
Eyrún Ellý Valsdóttir (efnisöflun og undirbúningur texta)
Hjördís Stefánsdóttir (efnisöflun og undirbúningur texta)
Guðmundur Örn Leifsson (leitarkerfi)
Kristján Friðbjörn Sigurðsson (leiðrétting marka í afleiddri málheild, Gullstaðli fyrir mörkun)
Jökull Huxley Yngvason (kerfi fyrir mörkun) Kristín Margrét Jóhannsdóttir (lýsigögn og undirbúningur texta)
Steinþór Steingrímsson (flutningur í xml-skrár, leitarkerfi)

Hafið samband

Netfang: clarin@clarin.is

Heimildir

Anton K. Ingason, Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using Hierachy of Linguistic Identities (HOLI)<span, bls. 224–231. Seattle, Washington, USA.
Hrafn Loftsson. 2008. Tagging Icelandic text: A linguistic rule-based approach. Birtist í breyttu formi í Nordic Journal of Linguistics 31(1), 47-72. © 2008 Cambridge University Press.
Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools (EMNLP-96), bls. 133–143. Philadelphia. PA.

Ítarefni

Friðrik Magnússon. 1988. Hvað er títt? Tíðnikönnun Orðabókar Háskólans. Orð og tunga 1:1-49.
Hrafn Loftsson. 2006. Tagging Icelandic text: An experiment with integrations and combinations of taggers. Language Resources and Evaluation 40(2), 175-181.
Hrafn Loftsson. 2006. Tagging a morphologically complex language using heuristics. Í T. Salakoski, F. Ginter, S. Pyysalo og T. Pahikkala (ritstj.), Advances in Natural Language Processing, 5th International Conference on NLP, FinTAL 2006, Proceedings. Turku, Finland.
Hrafn Loftsson. 2007. Tagging Icelandic Text using a Linguistic and a Statistical Tagger. Í Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the ACL. Rochester, NY, USA.
Hrafn Loftsson. 2009. Correcting a POS-Tagged Corpus Using Three Complementary Methods. Í Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009). Athens, Greece.
Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural Language Processing Toolkit for Icelandic. Í Proceedings of InterSpeech 2007, Special session: "Speech and language technology for less-resourced languages". Antwerp, Belgium.
Hrafn Loftsson, Ida Kramarczyk, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2009. Improving the PoS tagging accuracy of Icelandic text. Í Proceedings of the 17th Nordic Conference of Computational Linguistics (NODALIDA-2009). Odense, Denmark.
Hrafn Loftsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2011. Using a morphological database to increase the accuracy in PoS tagging. Í Proceedings of Recent Advances in Natural Language Processing (RANLP 2011). Hissar, Bulgaria.
Jörgen Pind (ritstj.), Friðrik Magnússon and Stefán Briem. 1991. Íslensk orðtíðnibók. Orðabók Háskólans, Reykjavík.
Sigrún Helgadóttir. 2007. Mörkun íslensks texta. Orð og tunga 9:75-107. Reykjavík.
Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Proceedings of the Workshop on Language Technology for Normalisation of Less-Resourced Languages - SaLTMiL 8 - AfLaT2012, s. 67-72. Istanbúl, Tyrklandi.

CLARIN ERIC

CLARIN ERIC er rannsóknarinnviðaverkefni á vegum Evrópusambandsins – CLARIN stendur fyrir „Common Language Resources and Technology Infrastructure“ og ERIC stendur fyrir „European Research Infrastructure Consortium“. Samþykktir CLARIN ERIC hafa verið staðfestar af Framkvæmdastjórn Evrópusambandsins.

Meginmarkmið CLARIN ERIC er að öll stafræn málföng (language resources) og búnaður frá allri Evrópu (og víðar) verði aðgengileg með einni innskráningu (single sign-on) á netið, til nota í rannsóknum í hug- og félagsvísindum og innan máltækni.

CLARIN-IS

Ísland fékk aðild að CLARIN ERIC 1. febrúar 2020 en hafði verið áheyrnaraðili (observer) frá 1. nóvember 2018. Mennta- og menningarmálaráðuneytið fól Stofnun Árna Magnússonar í íslenskum fræðum að vera leiðandi aðili (leading partner) í landshópi (national consortium) Íslands í verkefninu og tilnefndi Eirík Rögnvaldsson prófessor emeritus sem landsfulltrúa (national coordinator). Þann 1. október 2021 tók Starkaður Barkarson, verkefnastjóri á Árnastofnun, við stöðu landsfulltúra. Flestar stofnanir sem málið varðar taka þátt í landshópi CLARIN-IS.

Árnastofnun rak fyrstu árin lýsigagnamiðstöð (CLARIN C-centre) en var aŕið 2023 samþykkt sem tæknileg þjónustumiðstöð (Service Providing Centre, CLARIN B-centre) þangað sem unnt er að sækja ákveðna þjónustu og fá aðgang að gögnum og þekkingu.

CLARIN á Íslandi