Í Markaðri íslenskri málheild (MÍM) má finna um 25 milljónir orða af fjölbreyttum textum sem eru geymdir í stöðluðu sniði í rafrænu formi. Orð í textunum eru greind málfræðilega og hverjum texta fylgja bókfræðilegar upplýsingar um verkið sem textinn er úr. Málheildin er ætluð fyrir málrannsóknir og til notkunar í máltækniverkefnum.
Þegar birtar eru niðurstöður sem eru fengnar með því að nota gögn Markaðrar íslenskrar málheildar vinsamlegast vitnið í:
Með markaðri málheild (e. tagged corpus) er átt við safn fjölbreyttra texta sem eru geymdir í stöðluðu sniði í rafrænu formi. Til þess að textarnir verði sem gagnlegastir við málrannsóknir eru þeir greindir á margvíslegan hátt. Hverri orðmynd fylgir þá greiningarstrengur, mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Auk þess fylgir nefnimynd (e. lemma) með hverri orðmynd, t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna. Hverjum texta í málheildinni fylgja jafnframt lýsigögn (e. metadata) um verkið sem textinn er úr. Fyrir útgefna texta eru lýsigögn venjulega kölluð bókfræðilegar upplýsingar.
Árið 2004 var hafist handa við að búa til markaða málheild fyrir íslenskt samtímamál á Orðabók Háskólans og síðar undir merkjum Stofnunar Árna Magnússonar í íslenskum fræðum eftir að Orðabók Háskólans hafði sameinast Stofnun Árna Magnússonar á Ísland árið 2006. Stefnt var að því að í málheildinni yrðu um 25 milljónir orða úr textum af ýmsu tagi sem gæfu sem raunsannasta mynd af ritaðri íslensku á 21. öld. Textunum var safnað á tímabilinu 2006-2010. Textarnir sem safnað var eru ritaðir á tímabilinu 2000-2010. Aðeins var safnað textum sem voru aðgengilegir í tölvutæku formi.
Til þess að unnt yrði að nota málheildina í máltækniverkefnum var lögð áhersla á að afla leyfa frá rétthöfum fyrir notkun textanna. Með aðstoð lögfræðings var útbúin sérstök samþykkisyfirlýsing sem rétthafar undirrituðu.
Leitað var eftir samþykki rétthafa til þess að fá að nýta alla texta sem eru varðir af höfundarrétti. Sérstakar ráðstafanir voru gerðar til þess að afla heimilda til þess að nota texta úr útgefnum bókum. Gert var samkomulag við Hagþenki (Félag höfunda fræðirita og kennslugagna), Rithöfundasamband Íslands og Félag íslenskra bókaútgefenda. Þessir aðilar mæltu með verkefninu við félagsmenn sína. Leitað var eftir samþykki höfunda útgefinna bóka og viðkomandi útgefendur lögðu til texta verkanna. Safnað var efni úr fræðiritum, bókum um margvísleg hagnýt efni og skáldsögum.
Textar í málheildinni hafa verið flokkaðir í 23 flokka. Textar úr útgefnum bókum eru stærsti textaflokkurinn og eru tæplega 24% af textum málheildarinnar. Næststærsti textaflokkurinn er textar úr dagblöðum (Morgunblaðinu og Fréttablaðinu), um 22%. Textar úr margvíslegum prentuðum tímaritum eru um 9,5% af textum málheildarinnar. Auk höfundavarins efnis var safnað nokkru af efni frá opinberum aðilum sem ekki er varið höfundarrétti eins og ræðum alþingismanna (um 2% af málheildinni), textum af vefsetrum ráðuneyta (6,8%), textum frumvarpa og laga af vef Alþingis (1,6%) og textum dóma frá Hæstarétti og Héraðsdómi Reykjavíkur (3,5%).
Listi yfir alla texta í málheildinni.
Rétthöfum var kynnt notkunarleyfið sem notendur þurfa að samþykkja til þess að fá afrit af textum málheildarinnar.
Úr málheildinni má lesa ýmiss konar gagnlegan fróðleik. Þar má nefna upplýsingar um tíðni orðflokka, orða og beygingarmynda, orðasambönd, setningargerð, merkingu o.fl. Slík gögn nýtast m.a. við orðabókargerð, gerð leiðréttingarforrita, þýðingarforrita, búnaðar fyrir talgreiningu og talgervingu og gerð hjálparforrita fyrir blinda, heyrnarskerta, hreyfihamlaða og þá sem glíma við skriftar- og lestarörðugleika og einnig fyrir kennslu.
Verkið var kostað af tungutækniverkefni menntamálaráðuneytisins fyrstu árin. Rannsóknarverkefnið Tilbrigði í setningagerð lét í té gögn um talað mál. Verkefnið var einnig kostað af styrk til Rannsóknarverkefnisins "Hagkvæm máltækni utan ensku – íslenska tilraunin" sem hlaut styrk frá Rannsóknasjóði árin 2009-2011. Frá febrúar 2011 til janúar 2013 var verkið styrkt af íslenskum hluta verkefnisins META-NORD sem er samstarfsverkefni Norðurlanda og Eystrasaltslanda og hluti af META-NET. Einstakir hlutar verkefnisins hafa verið unnir með tilstyrk styrkja úr Rannsóknasjóði Háskóla Íslands, Nýsköpunarsjóði námsmanna og verkefninu Nordisk Netordbog. Stofnun Árna Magnússonar í íslenskum fræðum er aðili að Máltæknisetri. Fræðimenn sem eiga aðild að Máltæknisetri hafa tekið þátt í gerð málheildarinnar.
Málheildin var mörkuð með vélrænum aðferðum. Notað var sérstakt kerfi, CorpusTagger, sem var gert til þess að marka Gullstaðalinn fyrir mörkun texta (Hrafn Loftsson o.fl., 2010). Textanum var skipt í setningar og lesmálsorð með IceNLP-hugbúnaðinum. Síðan var textinn markaður með fjórum mörkurum: fnTBL, MXPOST (Ratnaparkhi, 1996), TriTagger sem er hluti af IceNLP-hugbúnaðinum og er endurgerð af Markov-markaranum (HMM) TnT (Brants, 2000) og IceTagger (Hrafn Loftsson, 2008) sem er reglumarkari og er einnig hluti af IceNLP-hugbúnaðinum. Markararnir fnTBL, MXPOST og TriTagger eru námfúsir markarar og voru þjálfaðir á textum Íslenskar orðtíðnibókar. Sömu textar voru notaðir við þróun reglumarkarans IceTagger. Að lokum var kosið á milli markanna með CombiTagger. Málheildin er því mörkuð með markaskrá Orðtíðnibókarinnar með þeirri undantekningu að sérnöfn eru ekki greind í mannanöfn, staðarnöfn og önnur sérnöfn. Nefnimyndir voru fundnar með forritinu Lemmald (Anton Ingason o.fl., 2008) sem einnig er hluti af IceNLP-hugbúnaðinum. Nákvæmni mörkunar hefur verið metin 88,1-95,1% eftir textaflokkum (Hrafn Loftsson o.fl., 2010) og nákvæmni nefnimynda er um 90%.
Nefnimyndir fyrir orð í textum málheildarinnar voru fundnar með forritinu Lemmald eins og áður sagði. Nákvæmni nefnimynda hefur verið lauslega metin um 90%. Til þess að fá áreiðanlegar tölur um tíðni nefnimynda þarf nákvæmni þeirra að vera töluvert hærri. Til þess að fá samt einhverja hugmynd er sýnd tíðni fyrir nefnimyndir sem koma fyrir oftar en 100 sinnum. Rangar nefnimyndir koma yfirleitt fyrir sjaldnar en það. Í Excel-skjalinu eru 14 blaðsíður. Á fyrstu síðunni (freq) eru nefnimyndir sem koma fyrir oftar en 100 sinnum í tíðniröð. Gefinn er upp orðflokkur (pos), þ.e. fyrsti stafur í markinu. Þessir stafir eru notaðir: a: atviksorð (adverbs); c: samtengingar (conjunctions); e: erlend orð; f: fornöfn (pronouns); g: laus greinir (article); l: lýsingarorð (adjectives); n: nafnorð (nouns); s: sagnir (verbs); t: töluorð (numerals); x: ógreind orð (unspecified). Athuga ber að forsetningar eru greindar sem atviksorð. Í annarri síðu (alphabetic) eru orðin í stafrófsröð. Í næstu síðu (freq(alphab)) eru orðin í tíðniröð en þeim sem hafa sömu tíðni er raðað í stafrófsröð. Í næstu síðu (pos(freq(alphb))) er raðað eftir orðflokki, síðan tíðni og síðast stafrófi. Síðan kemur ein síða fyrir hvern orðflokk þar sem orðum er raðað í tíðniröð og síðan stafrófsröð.
Málheildin er aðgengileg á tvenns konar hátt:
Mikilvægasta afurð málheildarinnar er Gullstaðallinn fyrir mörkun texta sem er málheild með um einni milljón orða af textum sem voru valdir úr textum Markaðrar íslenskrar málheildar. Gert er ráð fyrir að Gullstaðallinn verði notaður fyrir þjálfun námfúsra markara.
Netfang: clarin@clarin.is