Mörkuð íslensk málheild

Í Markaðri íslenskri málheild (MÍM) má finna um 25 milljónir orða af fjölbreyttum textum sem eru geymdir í stöðluðu sniði í rafrænu formi. Orð í textunum eru greind málfræðilega og hverjum texta fylgja bókfræðilegar upplýsingar um verkið sem textinn er úr. Málheildin er ætluð fyrir málrannsóknir og til notkunar í máltækniverkefnum.

Þegar birtar eru niðurstöður sem eru fengnar með því að nota gögn Markaðrar íslenskrar málheildar vinsamlegast vitnið í:

  • Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM)Proceedings of the Workshop on Language Technology for Normalisation of Less-Resourced Languages -SaLTMiL 8 – AfLaT2012, s. 67-72. Istanbúl, Tyrklandi.

Um MÍM

Hvað er mörkuð málheild? 

Með markaðri málheild (e. tagged corpus) er átt við safn fjölbreyttra texta sem eru geymdir í stöðluðu sniði í rafrænu formi. Til þess að textarnir verði sem gagnlegastir við málrannsóknir eru þeir greindir á margvíslegan hátt. Hverri orðmynd fylgir þá greiningarstrengur, mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Auk þess fylgir nefnimynd (e. lemma) með hverri orðmynd, t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar. 

Gerð íslenskrar málheildar

Árið 2004 var hafist handa við að búa til markaða málheild fyrir íslenskt samtímamál á Orðabók Háskólans og síðar undir merkjum Stofnunar Árna Magnússonar í íslenskum fræðum eftir að Orðabók Háskólans hafði sameinast Stofnun Árna Magnússonar á Ísland árið 2006. Stefnt var að því að í málheildinni yrðu um 25 milljónir orða úr textum af ýmsu tagi sem gæfu sem raunsannasta mynd af ritaðri íslensku á 21. öld. Textunum var safnað á tímabilinu 2006-2010. Textarnir sem safnað var eru ritaðir á tímabilinu 2000-2010. Aðeins var safnað textum sem voru aðgengilegir í tölvutæku formi.

Til þess að unnt yrði að nota málheildina í máltækniverkefnum var lögð áhersla á að afla leyfa frá rétthöfum fyrir notkun textanna. Með aðstoð lögfræðings var útbúin sérstök samþykkisyfirlýsing sem rétthafar undirrituðu.

Leitað var eftir samþykki rétthafa til þess að fá að nýta alla texta sem eru varðir af höfundarrétti. Sérstakar ráðstafanir voru gerðar til þess að afla heimilda til þess að nota texta úr útgefnum bókum. Gert var samkomulag við Hagþenki (Félag höfunda fræðirita og kennslugagna)Rithöfundasamband Íslands og Félag íslenskra bókaútgefenda. Þessir aðilar mæltu með verkefninu við félagsmenn sína. Leitað var eftir samþykki höfunda útgefinna bóka og viðkomandi útgefendur lögðu til texta verkanna. Safnað var efni úr fræðiritum, bókum um margvísleg hagnýt efni og skáldsögum.

Textar í málheildinni hafa verið flokkaðir í 23 flokka. Textar úr útgefnum bókum eru stærsti textaflokkurinn og eru tæplega 24% af textum málheildarinnar. Næststærsti textaflokkurinn er textar úr dagblöðum (Morgunblaðinu og Fréttablaðinu), um 22%. Textar úr margvíslegum prentuðum tímaritum eru um 9,5% af textum málheildarinnar. Auk höfundavarins efnis var safnað nokkru af efni frá opinberum aðilum sem ekki er varið höfundarrétti eins og ræðum alþingismanna (um 2% af málheildinni), textum af vefsetrum ráðuneyta (6,8%), textum frumvarpa og laga af vef Alþingis (1,6%) og textum dóma frá Hæstarétti og Héraðsdómi Reykjavíkur (3,5%). 

Listi yfir alla texta í málheildinni. 

Rétthöfum var kynnt notkunarleyfið sem notendur þurfa að samþykkja til þess að fá afrit af textum málheildarinnar. 

Úr málheildinni má lesa ýmiss konar gagnlegan fróðleik. Þar má nefna upplýsingar um tíðni orðflokka, orða og beygingarmynda, orðasambönd, setningargerð, merkingu o.fl. Slík gögn nýtast m.a. við orðabókargerð, gerð leiðréttingarforrita, þýðingarforrita, búnaðar fyrir talgreiningu og talgervingu og gerð hjálparforrita fyrir blinda, heyrnarskerta, hreyfihamlaða og þá sem glíma við skriftar- og lestarörðugleika og einnig fyrir kennslu. 

Samastarfsaðilar og styrkveitendur 

Verkið var kostað af tungutækniverkefni menntamálaráðuneytisins fyrstu árin. Rannsóknarverkefnið Tilbrigði í setningagerð lét í té gögn um talað mál. Verkefnið var einnig kostað af styrk til Rannsóknarverkefnisins "Hagkvæm máltækni utan ensku – íslenska tilraunin" sem hlaut styrk frá Rannsóknasjóði árin 2009-2011. Frá febrúar 2011 til janúar 2013 var verkið styrkt af íslenskum hluta verkefnisins META-NORD sem er samstarfsverkefni Norðurlanda og Eystrasaltslanda og hluti af META-NET. Einstakir hlutar verkefnisins hafa verið unnir með tilstyrk styrkja úr Rannsóknasjóði Háskóla ÍslandsNýsköpunarsjóði námsmanna og verkefninu Nordisk Netordbog. Stofnun Árna Magnússonar í íslenskum fræðum er aðili að Máltæknisetri. Fræðimenn sem eiga aðild að Máltæknisetri hafa tekið þátt í gerð málheildarinnar. 

Mörkun málheildarinnar 

Málheildin var mörkuð með vélrænum aðferðum. Notað var sérstakt kerfi, CorpusTagger, sem var gert til þess að marka Gullstaðalinn fyrir mörkun texta (Hrafn Loftsson o.fl., 2010). Textanum var skipt í setningar og lesmálsorð með IceNLP-hugbúnaðinum. Síðan var textinn markaður með fjórum mörkurum: fnTBL, MXPOST (Ratnaparkhi, 1996), TriTagger sem er hluti af IceNLP-hugbúnaðinum og er endurgerð af Markov-markaranum (HMM) TnT (Brants, 2000) og IceTagger (Hrafn Loftsson, 2008) sem er reglumarkari og er einnig hluti af IceNLP-hugbúnaðinum. Markararnir fnTBL, MXPOST og TriTagger eru námfúsir markarar og voru þjálfaðir á textum Íslenskar orðtíðnibókar. Sömu textar voru notaðir við þróun reglumarkarans IceTagger. Að lokum var kosið á milli markanna með CombiTagger. Málheildin er því mörkuð með markaskrá Orðtíðnibókarinnar með þeirri undantekningu að sérnöfn eru ekki greind í mannanöfn, staðarnöfn og önnur sérnöfn. Nefnimyndir voru fundnar með forritinu Lemmald (Anton Ingason o.fl., 2008) sem einnig er hluti af IceNLP-hugbúnaðinum. Nákvæmni mörkunar hefur verið metin 88,1-95,1% eftir textaflokkum (Hrafn Loftsson o.fl., 2010) og nákvæmni nefnimynda er um 90%. 

Markaskrá MÍM

Tíðni orða 

Nefnimyndir fyrir orð í textum málheildarinnar voru fundnar með forritinu Lemmald eins og áður sagði. Nákvæmni nefnimynda hefur verið lauslega metin um 90%. Til þess að fá áreiðanlegar tölur um tíðni nefnimynda þarf nákvæmni þeirra að vera töluvert hærri. Til þess að fá samt einhverja hugmynd er sýnd tíðni fyrir nefnimyndir sem koma fyrir oftar en 100 sinnum. Rangar nefnimyndir koma yfirleitt fyrir sjaldnar en það. Í Excel-skjalinu eru 14 blaðsíður. Á fyrstu síðunni (freq) eru nefnimyndir sem koma fyrir oftar en 100 sinnum í tíðniröð. Gefinn er upp orðflokkur (pos), þ.e. fyrsti stafur í markinu. Þessir stafir eru notaðir: a: atviksorð (adverbs); c: samtengingar (conjunctions); e: erlend orð; f: fornöfn (pronouns); g: laus greinir (article); l: lýsingarorð (adjectives); n: nafnorð (nouns); s: sagnir (verbs); t: töluorð (numerals); x: ógreind orð (unspecified). Athuga ber að forsetningar eru greindar sem atviksorð. Í annarri síðu (alphabetic) eru orðin í stafrófsröð. Í næstu síðu (freq(alphab)) eru orðin í tíðniröð en þeim sem hafa sömu tíðni er raðað í stafrófsröð. Í næstu síðu (pos(freq(alphb))) er raðað eftir orðflokki, síðan tíðni og síðast stafrófi. Síðan kemur ein síða fyrir hvern orðflokk þar sem orðum er raðað í tíðniröð og síðan stafrófsröð. 

Nota MIM

Málheildin er aðgengileg á tvenns konar hátt: 

  1. Leita í textunum. Leitin er aðgengileg á málheildarsíðu Stofnunar Árna Magnússonar. Nýta má málfræðilegar upplýsingar til þess að skilgreina leitina og jafnframt fást bókfræðilegar upplýsingar um textana sem leitarniðurstöður eru úr. Leit skilar orðstöðulykli og tengli á upplýsingar um hvaðan hvert textadæmi er fengið. Hér er listi yfir textaflokka sem unnt er að leita í. Á leitarsíðunni má velja hver þessara flokka til leitar. Leitarviðmótið byggist á sænska leitarkerfinu Korp
  2. Sækja textana. Í öðru lagi má sækja texta málheildarinnar og nota þá í máltækniverkefnum. Væntanlegir notendur þurfa að samþykkja sérstakt notkunarleyfi. Textarnir eru aðgengilegir í sérstöku xml-sniði, TEI P4, sem er skilgreint af TEI (Text Encoding Initiative). Lýsigögn fylgja öllum textum. Sækja

Verk leidd af Markaðri íslenskri málheild 

Mikilvægasta afurð málheildarinnar er Gullstaðallinn fyrir mörkun texta sem er málheild með um einni milljón orða af textum sem voru valdir úr textum Markaðrar íslenskrar málheildar. Gert er ráð fyrir að Gullstaðallinn verði notaður fyrir þjálfun námfúsra markara.

Fólkið á bak við málheildina

Verkefnisstjóri 

Verkefnisstjórn 

Aðrir samstarfsmenn 

  • Auður Þórunn Rögnvaldsdóttir (undirbúningur verkefnisins) 
  • Eyrún Ellý Valsdóttir (efnisöflun og undirbúningur texta) 
  • Hjördís Stefánsdóttir (efnisöflun og undirbúningur texta) 
  • Guðmundur Örn Leifsson (leitarkerfi) 
  • Kristján Friðbjörn Sigurðsson (leiðrétting marka í afleiddri málheild, Gullstaðli fyrir mörkun)
  • Jökull Huxley Yngvason (kerfi fyrir mörkun) Kristín Margrét Jóhannsdóttir (lýsigögn og undirbúningur texta) 
  • Steinþór Steingrímsson (flutningur í xml-skrár, leitarkerfi)

Hafið samband

Netfang: clarin@clarin.is

Heimildir

Ítarefni