Um CLARIN-IS

Síðla árs 2018 fól mennta- og menningarmálaráðuneytið Stofnun Árna Magnússonar í íslenskum fræðum að hafa forystu um þátttöku Íslands í evrópska rannsóknarinnviðaverkefninu CLARIN ERIC  – CLARIN stendur fyrir „Common Language Resources and Technology Infrastructure“ og ERIC stendur fyrir „European Research Infrastructure Consortium“. CLARIN ERIC er undir hatti Evrópusambandsins og starfar eftir samþykktum sem hafa verið staðfestar af framkvæmdastjórn þess. 

Flest ríki Evrópu taka þátt í þessu samstarfi, þ. á m. öll Norðurlönd, og ber mennta- eða vísindamálaráðuneyti hvers ríkis yfirleitt ábyrgð á þátttökunni. Ráðuneytið felur síðan einni stofnun að hafa forystu um þátttöku ríkisins í CLARIN ERIC og standa fyrir myndun landshóps (e. national consortium) helstu hagsmunaaðila, einkum háskóla og rannsóknarstofnana, en sums staðar einnig málnefnda, landsbókasafna og annarra safna. Ráðuneytið tilnefnir einnig landsfulltrúa (e. national coordinator) sem er yfirleitt starfsmaður forystustofnunarinnar og stýrir starfinu í viðkomandi landi.

Upphaf CLARIN má rekja aftur til 2008 þegar undirbúningsfasi þess hófst. Ísland var ekki með frá byrjun en komst inn í samstarfshóp undirbúningsfasans árið 2010, en án fjárhagslegs stuðnings. Þegar eðli CLARIN breyttist árið 2012 og CLARIN ERIC varð til varð Ísland ekki stofnaðili. Íslandi var þó boðin þátttaka í sérstöku norrænu CLARIN-neti, Nordic CLARIN Network, sem kostað var af NordForsk á árunum 2014-2017. Íslenskir fræðimenn tóku þátt í ýmsum fundum og vinnustofum sem netið skipulagði.

Í júní 2017 stóð Nordic CLARIN Network fyrir vinnustofu í Háskóla Íslands um hugsanlega aðild Íslands að CLARIN. Fulltrúar fimm íslenskra stofnana sem búa yfir mállegum gögnum eða nýta þau tóku þátt í vinnustofunni, auk fulltrúa frá mennta- og menningarmálaráðuneytinu og Rannsóknamiðstöð Íslands. Varaforseti CLARIN, Bente Maegaard, og landsfulltrúar Svíþjóðar og Finnlands kynntu þar CLARIN fyrir fundarmönnum.

Í verkáætlun um íslenska máltækni sem gefin var út sumarið 2017 er sérstakur kafli um CLARIN. Þar er útskýrt hvernig aðild myndi gagnast Íslandi, með aðgangi að margvíslegum búnaði og gögnum, svo og að sérþekkingu á ýmsum sviðum. Innan máltækniáætlunarinnar á að þróa margs kyns gögn og búnað og það er mjög mikilvægt að gerð, lýsing og varðveisla þessara málfanga fylgi viðurkenndum stöðlum. Í áætluninni var því lagt til að Ísland gerðist aðili að CLARIN ERIC til að auðvelda vinnslu og varðveislu málfanganna.

Mennta- og menningarmálaráðuneytið féllst á þessa tillögu og ákvað að fjármagna þátttöku Íslands í CLARIN ERIC til fimm ára. Það kom þó í ljós að nauðsynlegt væri að breyta lögum til að Ísland gæti orðið fullgildur aðili og því var ákveðið að sækja um áheyrnaraðild (e. observership). Umsóknin var samþykkt á allsherjarþingi (e. general assembly) CLARIN ERIC í nóvember 2018 og áheyrnaraðild Íslands tók gildi 1. nóvember það ár. 

Ráðuneytið fól Stofnun Árna Magnússonar í íslenskum fræðum að vera fulltrúi Íslands gagnvart CLARIN ERIC og leiðandi aðili (e. leading partner) í íslenskum CLARIN-landshópi, eins og áður segir. Ásgerður Kjartansdóttir, sérfræðingur í mennta- og menningarmálaráðuneytinu, verður fulltrúi á allsherjarþingi (e. General Assembly) CLARIN, og Eiríkur Rögnvaldsson, prófessor emeritus, var tilnefndur landsfulltrúi CLARIN á Íslandi. Þátttakendur í landshópi CLARIN-IS, auk Stofnunar Árna Magnússonar, eru Háskóli Íslands, Háskólinn í Reykjavík, Landsbókasafn Íslands – Háskólabókasafn, Þjóðskjalasafn Íslands, Íslensk málnefnd, Ríkisútvarpið, og Almannarómur.

CLARIN-miðstöðin á Árnastofnun, CLARIN-IS, tók til starfa í ársbyrjun 2019. Þar starfa Eiríkur Rögnvaldsson landsfulltrúi í 40% starfi og frá 1. apríl Samúel Þórisson tölvunarfræðingur í fullu starfi. Meginverkefni miðstöðvarinnar hafa verið tvö: Annars vegar þátttaka í samstarfi CLARIN ERIC, og hins vegar uppbygging varðveislusafns (e. repository) sem komst í gagnið síðla árs. CLARIN-miðstöðin hefur einnig verið skráð sem lýsigagnamiðstöð (e. CLARIN C-Centre).

Í júní 2019 voru ný lög um samtök evrópskra rannsóknarinnviða samþykkt á Alþingi. Í framhaldi af því ákvað mennta- og menningarmálaráðherra snemma árs 2020 að Ísland sækti um fulla aðild að CLARIN ERIC. Umsóknin var samþykkt í lok febrúar og Ísland er fullgildur aðili að CLARIN ERIC frá 1. febrúar 2020 en gengið var frá undirritun aðildarsamnings 10. mars. CLARIN-miðstöðin, sem hafði verið í húsnæði Árnastofnunar á Laugavegi 13, er nú flutt í Þingholtsstræti 29 þar sem máltæknihópur Árnastofnunar hefur aðsetur.

Þótt megintilgangurinn með stofnun CLARIN ERIC hafi verið að styðja rannsóknir í hug- og félagsvísindum nýtast þau gögn sem komið hefur verið upp á ýmsum öðrum sviðum, ekki síst í máltækni sem er í örum vexti víðast hvar. Eins og áður segir er aðild Íslands að CLARIN ERIC fjármögnuð af máltækniáætlun stjórnvalda og í samningum Almannaróms f.h. ríkisins við SÍM – samstarf um íslenska máltækni, sem vinnur að framkvæmd máltækniáætlunarinnar, eru ákvæði um að allar afurðir máltækniverkefnisins, bæði gögn og hugbúnaður, verði lagðar inn í varðveislusafn íslensku CLARIN-miðstöðvarinnar.

Þetta er grundvallaratriði. Ein meginforsenda máltækniáætlunarinnar er að afurðir hennar verði öllum aðgengilegar og ókeypis, þannig að fyrirtæki og stofnanir sem vilja nýta þær við þróun máltæknibúnaðar geti gengið að þeim sér að kostnaðarlausu. Því er mjög mikilvægt að hægt sé að ganga að þeim á einum stað, ítarleg lýsing á þeim liggi fyrir, og þær séu á þekktu og vel skilgreindu sniði. Innlögn í CLARIN-miðstöðina tryggir þetta allt saman.

Fyrstu afurðum máltækniverkefnisins hefur þegar verið skilað og þær skráðar í safnið. Þar geta CLARIN-notendur hvar sem er fundið þær gegnum áðurnefnt sýndarsafn málfanga, og sótt þær þangað. Skráning gagna Árnastofnunar í varðveislusafnið er einnig hafin og verður unnið að henni á næstunni. Að því loknu verður farið að huga að skráningu gagna annarra þátttakenda í íslenska landshópnum í varðveislusafnið.

Fullgildum þátttakendum í CLARIN ERIC er skylt að koma upp a.m.k. einni tæknilegri þjónustumiðstöð (e. CLARIN B-Centre). CLARIN-IS vinnur að þessu en það er töluvert mál – slík miðstöð þarf að fullnægja ýmsum skilyrðum og fá sérstaka vottun. Auk þess er áhugi á því hjá íslensku CLARIN-miðstöðinni að koma upp þekkingarmiðstöð (e. CLARIN K-Centre) um íslenskt mál, þangað sem hægt væri að sækja hvers kyns gögn og upplýsingar. Undirbúningur þessa er á frumstigi, en slík miðstöð yrði sennilega rekin í samvinnu við aðra aðila, t.d. Íslenska málnefnd sem hefur lýst áhuga á því að koma upp upplýsingaveitu af þessu tagi.

Einnig liggur fyrir að kynna CLARIN fyrir hugsanlegum notendum, einkum fræðimönnum í ýmsum greinum hug- og félagsvísinda. Það er ljóst að innan CLARIN ERIC eru margvísleg gögn, innlend og erlend, sem geta gagnast málfræðingum, bókmenntafræðingum, sagnfræðingum, heimspekingum, félagsfræðingum, mannfræðingum, stjórnmálafræðingum, þjóðfræðingum, og mörgum öðrum. Fáir vita hins vegar af þessum gögnum og þeim möguleikum sem í þeim felast, og það er hlutverk CLARIN-miðstöðvarinnar að kynna þetta.

Enn fremur er stefnt að öflugri þátttöku í ráðstefnum og viðburðum á vegum CLARIN ERIC. Sú þátttaka er þegar hafin – sjö Íslendingar sóttu ársráðstefnu CLARIN ERIC í Leipzig haustið 2019 og voru þar með einn fyrirlestur og þrjú veggspjöld. CLARIN ERIC kostar þátttöku fimm fulltrúa frá hverju aðildarlandi, auk þeirra sem eru með erindi eða veggspjöld. Einnig er einum doktorsnema frá hverju landi boðin þátttaka sér að kostnaðarlausu. Auk þessa stendur CLARIN ERIC fyrir vinnustofum af ýmsu tagi sem Íslendingar geta nú sótt – og eru þegar farnir að gera.