Málvinnsluvefurinn er kominn upp aftur, nýr og betrumbættur. Á honum er hægt að nýta eftfarandi tól, bæði með því að líma inn texta inn í þar til gert form og með því að notast við forritaskil:
Stofnun Árna Magnússonar í íslenskum fræðum er nú orðin fullgild þjónustumiðstöð fyrir CLARIN á Íslandi (B-centre). Til að gerast fullgild þjónustumiðstöð þarf að uppfylla ströng skilyrði hvað varðar utanumhald og tæknilega innviði. Þjónustumiðstöðvarnar eru í raun hryggjarstykki CLARIN og sjá um að veita vísindasamfélaginu aðgang að gögnum og þjónustu ásamt því að miðla þekkingu.
Málheildavefur Árnastofnunar (https://malheildir.arnastofnun.is) hefur nú verið uppfærður, en á honum má skoða og leita í mörgum þeim málheildum sem finna má á varðveislusvæði CLARIN-IS. Vefurinn nýtir sér Korp, sem Språkbanken í Svíþjóð hefur þróað, og var nýjasta útgáfan sótt og aðlöguð, enda hefur töluverð þróun á sér stað á kerfinu síðan málheildavefur Árnastofnunar fór fyrst í loftið árið 2018. Ýmsir hnökrar á gamla kerfinu hafa nú verið lagaðir, auk þess sem útlitsbreytingar eru talsverðar. Við hvetjum notendur til að skoða notendahandbókina (https://malheildir.arnastofnun.is/userguide/main.html).
Seinustu vörðu máltækniáætlunar fyrir íslensku 20218-2022 var náð í byrjun október. Öll þau gögn og verkfæri sem urðu til í tengslum við máltækniáætlunina er nú að finna á varðveislusvæði CLARIN-IS. Yfirlit sem gefur góða heildarmynd yfir allt það sem finna má á varðveislusvæðinu er aðgengilegt hér
Um seinustu mánaðamót lauk áttundu og næstseinustu vörðu máltækniáætlunar. Alls bættust við 18 nýjar færslur í maí og júní við varðveislusvæði CLARIN-IS (http://repository.clarin.is). Sem dæmi þá sendi Miðeind inn gögnin sem liggja til grundvallar vefsíðunni Yfirlestur.is, en á þeirri síðu er hægt að láta yfirfara íslenskan texta og benda á ýmislegt sem betur mætti fara í stafsetningu og málfari. TÍRÓ hefur unnið að gerð vefgáttar fyrir talgervla (https://tts.tiro.is) og er frumkóðann að finna á varðveislusvæði CLARIN-IS. Háskólinn í Reykjavík nýtti sér vefgáttina við þróun WebRice, veflesara sem hægt að bæta við vefsíður svo notendur geti valið texta og hlustað á hann í staðinn fyrir að lesa hann.
Öðru ári máltækniáætlunar stjórnvalda lauk nú um mánaðamótin og hafa tugir færslna bæst við varðveislusafn CLARIN-IS. Innihalda þær hugbúnað til málvinnslu, málleg gagnasöfn og mállýsingar af ýmsum toga.
Nú inniheldur varðveislusafnið hátt í 150 færslur.
Hér að neðan eru tíndar til nokkrar nýlegar færslur sem dæmi um þau fjölbreyttu gögn og tól sem finna má á varðveislusafninu:
Þriðjudaginn 18. maí munu Almannarómur, Samstarf um íslenska máltækni (SÍM) og European Language Grid standa fyrir sérstakri atvinnulífsráðstefnu um máltækni, undir fyrirsögninni Máltæknibyltingin – Stafræn nýsköpun íslenskunnar. Ráðstefnan stendur frá kl. 8:45-13 og verður í beinni útsendingu á vef RÚV. Fluttur verður fjöldi erinda og ýmis verkefni máltækniáætlunar stjórnvalda kynnt. Nánari upplýsingar verða birtar hér þegar nær dregur.
Fyrsta ári máltækniáætlunar stjórnvalda lauk nú um mánaðamótin og áætlunin er þegar farin að skila af sér margvíslegum gögnum. Fjölda afurða áætlunarinnar hefur nýlega verið bætt í varðveislusafn CLARIN-IS þar sem nú eru 80 færslur - mállýsingar, málleg gagnasöfn og hugbúnaður til að vinna með íslensku. Mest af þessu eru afurðir máltækniáætlunarinnar, en einnig eru þarna gögn sem hafa orðið til í máltækninámi í HÍ og HR, svo og gögn sem unnin hafa verið á vegum einstakra stofnana og fyrirtækja.
Tveir rannsóknarhópar frá íslenska CLARIN-landshópnum kynntu rannsóknir sínar á sýndarvinnustofunni ParlaCLARIN í dag. Steinþór Steingrímsson, Starkaður Barkarson og Gunnar Thor Örnólfsson kynntu greinina „IGC-Parl: Icelandic Corpus of Parliamentary Proceedings“, og Kristján Rúnarsson og Einar Freyr Sigurðsson kynntu greinina „Parsing Icelandic Alþingi Transcripts: Parliamentary Speeches as a Genre“. Báðar greinarnar eru birtar í ráðstefnuriti sem er opið á netinu.
Ýmsum málföngum hefur nýlega verið bætt við CLARIN-IS varðveislusafnið:
Öllum þessum málföngum er hægt að hlaða niður. Þau eru með CC BY 4.0 leyfi nema IceNeuralParsingPipeline sem er með MIT leyfi.
Skilafrestur útdrátta fyrir ársráðstefnu CLARIN sem verður haldin í Madrid dagana 5.-7. október hefur verið framlengdur. Aðalefni ráðstefnunnar að þessu sinni er „Málföng, tól og þjónustur fyrir þverfaglegar rannsóknir“ (Language resources, tools and services for interdisciplinary research) en ýmis önnur efni koma líka til greina. Útdráttum skal skila gegnum EasyChair ekki síðar en 28. apríl. Sjá ráðstefnukall á heimasíðu CLARIN ERIC.
Á ársráðstefnum CLARIN eru venjulega tekin viðtöl við nokkra þátttakendur - boðsfyrirlesara, verðlaunahafa, nýliða og aðra. Á ársráðstefnunni í Leipzig í haust var tekið viðtal við Eirík Rögnvaldsson, landsfulltrúa CLARIN á Íslandi, í tilefni af áheyrnaraðild (nú fullri aðild) landsins að CLARIN ERIC. Viðtalið hefur nú verið birt á YouTube-rás CLARIN ERIC.
Umsókn Íslands um fulla aðild að CLARIN ERIC, sem mennta- og menningarmálaráðuneytið sendi 5. febrúar, hefur nú hlotið rafrænt samþykki allsherjarþings samtakanna. Ísland er því fullgildur aðili að CLARIN ERIC frá 1. febrúar 2020. Þar með er gamalt baráttumál í höfn en eins og fram kemur annars staðar hér á vefnum hefur Ísland verið í tengslum við CLARIN í 10 ár og getur nú loks tekið fullan þátt í starfinu. CLARIN-miðstöðin á Árnastofnun er í uppbyggingu og er þegar farin að taka við gögnum, m.a. afurðum máltækniverkefnis stjórnvalda. Þessi gögn eru aðgengileg í varðveislusafni miðstöðvarinnar og þaðan er lýsigögnum þeirra dreift þannig að allir sem tengjast CLARIN geta fundið upplýsingar um þau í sýndarsafni málfanga (Virtual Language Observatory) og nálgast þau með þeim skilmálum sem settir hafa verið.
Umsókn Íslands um fulla aðild að CLARIN ERIC, sem mennta- og menningarmálaráðuneytið sendi 5. febrúar, hefur nú hlotið rafrænt samþykki allsherjarþings samtakanna. Ísland er því fullgildur aðili að CLARIN ERIC frá 1. febrúar 2020. Þar með er gamalt baráttumál í höfn en eins og fram kemur annars staðar hér á vefnum hefur Ísland verið í tengslum við CLARIN í 10 ár og getur nú loks tekið fullan þátt í starfinu. CLARIN-miðstöðin á Árnastofnun er í uppbyggingu og er þegar farin að taka við gögnum, m.a. afurðum máltækniverkefnis stjórnvalda. Þessi gögn eru aðgengileg í varðveislusafni miðstöðvarinnar og þaðan er lýsigögnum þeirra dreift þannig að allir sem tengjast CLARIN geta fundið upplýsingar um þau í sýndarsafni málfanga (Virtual Language Observatory) og nálgast þau með þeim skilmálum sem settir hafa verið.
CLARIN-skrifstofan á Íslandi er nú flutt í Þingholtsstræti 29, ásamt máltæknihópi Árnastofnunar. Skrifstofan hefur nú fengið sérstakt símanúmer - 525-4037.
Öll erindi á ársráðstefnu CLARIN í Leipzig í haust voru tekin upp og eru nú komin á netið. Þar á meðal er erindi Lilju Bjarkar Stefánsdóttur og Antons Karls Ingasonar, Lifespan Change and Style Shift in the Icelandic Gigaword Corpus.
Ný máltækniafurð hefur nú bæst í varðveislusafn CLARIN-IS. Það er ruglingsmengjamálheild (The Icelandic Confusion Set Corpus) sem þróuð var af Steinunni Friðriksdóttur og Antoni Karli Ingasyni við Háskóla Íslands. Hún hefur að geyma mikinn fjölda samhljóma orðapara sem iðulega er ruglað saman (leiti - leyti, sín - sýn, forvitinn - forvitin, hvað - kvað, o.fl.). Málheildin er öllum aðgengileg með CC BY 4.0 leyfi.
Í framhaldi af samþykkt laga um samtök um evrópska rannsóknarinnviði nr. 66/2019 hefur mennta- og menningarmálaráðherra ákveðið að Ísland sæki um fulla aðild að CLARIN ERIC. Formleg umsókn verður væntanlega send á næstunni. Þetta er mikið gleðiefni og mun styrkja starf íslensku CLARIN-miðstöðvarinnar.
Samkvæmt samningi Almannaróms og SÍM (Samstarfs um íslenska máltækni) er gert ráð fyrir að afurðir máltækniverkefnisins verði vistaðar í varðveislusafni íslensku CLARIN-miðstöðvarinnar. Þannig verða þær öllum aðgengilegar, m.a. gegnum sýndarsafn málfanga (Virtual Language Observatory) og leitarvélar. Í dag urðu þau tímamót að fyrstu afurð verkefnisins var hlaðið upp í varðveislusafnið. Það er tókari (tokenizer) þróaður af Miðeind ehf. Fleiri afurðir, bæði hugbúnaður og gagnasöfn, eru væntanlegar á næstunni.
Auglýst hefur verið eftir útdráttum fyrir ársráðstefnu CLARIN sem verður haldin í Madrid dagana 5.-7. október. Aðalefni ráðstefnunnar að þessu sinni er „Málföng, tól og þjónustur fyrir þverfaglegar rannsóknir“ (Language resources, tools and services for interdisciplinary research) en ýmis önnur efni koma líka til greina. Útdráttum skal skila gegnum EasyChair ekki síðar en 14. apríl. Sjá ráðstefnukall á heimasíðu CLARIN ERIC.
Nú má lesa fréttaskot CLARIN ERIC fyrir nóvember á vefnum. Þar er m.a. að finna stutta frásögn af ráðstefnunni Er íslenskan góður „bissness“ sem haldin var 16. október.
CLARIN-IS hefur nú verið skráð sem C-setur sem merkir að þangað er hægt að sækja lýsigögn. Lýsigögn frá CLARIN-IS eru því farin að birtast þegar leitað er í sýndarsafni málfanga (Virtual Language Observatory). Með lýsigögnunum fylgir tengill á viðkomandi gögn eða hugbúnað.
CLARIN-IS stóð ásamt öðrum að málþinginu Er íslenskan góður„bissness“ sem var haldið í Veröld - Húsi Vigdísar miðvikudaginn 16. október. Þar fluttu forseti Íslands og mennta- og menningarmálaráðherra ávörp, og fólk úr fræðasamfélaginu og frá fyrirtækjum talaði um máltækni og hvernig hún gæti nýst á ýmsan hátt. Bente Maegaard, sem situr í fagráði Almannaráðs ásamt Kadri Vider og Steven Krauwer, flutti stutt kynningarerindi um CLARIN. Um 120 manns sóttu málþingið. Upptaka frá því er á vefnum og einnig fleiri myndir.
Ársráðstefna CLARIN var haldin í Leipzig í Þýskalandi dagana 30. september - 2. október. Sjö fulltrúar frá Íslandi tóku þátt í ráðstefnunni. Einn þeirra flutti erindi og tveir kynntu veggspjöld í almennri dagskrá ráðstefnunnar, og einn stúdent kynnti verkefni sitt á sérstakri veggspjaldakynningu stúdenta.
Uppbygging CLARIN-seturs er í fullum gangi. Sótt hefur verið um viðurkenningu sem C-setur, en markmiðið er að koma upp B-setri í náinni framtíð. Samúel tæknimaður hefur sökkt sér niður í tæknilega innviði CLARIN síðan hann hóf störf í apríl. Það er mikið mál að komast á sama stig og þjóðir sem hafa verið þátttakendur í CLARIN í mörg ár og byggt upp þekkingu og færni smátt og smátt, en við vonumst til að vera komin með góða undirstöðu í lok ársins.
Í dag var undirritaður samningur milli Almannaróms, miðstöðvar um máltækni sem hefur verið falin umsjón með máltækniáætlun ríkisstjórnarinnar, og SÍM - samstarfshóps um íslenska máltækni. Þátttakendur í SÍM eru Háskóli Íslands, Háskólinn í Reykjavík, Stofnun Árna Magnússonar í íslenskum fræðum, Ríkisútvarpið, Blindrafélagið, og fjögur fyrirtæki - Creditinfo, Miðeind, Tiro og Grammatek. Samkvæmt samningnum tekur SÍM að sér þá rannsóknar- og þróunarvinnu sem inna þarf af hendi við kjarnaverkefni áætlunarinnar. Mikið af málföngum og hugbúnaði mun verða til innan áætlunarinnar. Þessu verður öllu lýst í samræmi við staðla CLARIN og geymt og dreift af CLARIN-miðstöðinni á Íslandi eins og sérstaklega er kveðið á um í samningnum.
Alþingi hefur nú samþykkt lög um evrópska rannsóknarinnviði, sem gera Íslandi kleift að gerast fullgildur aðili að CLARIN ERIC. Landsfulltrúi CLARIN hefur skrifað mennta- og menningarmálaráðuneytinu og óskað eftir því að umsókn um fulla aðild verði send.
Samúel Þórisson forritari hóf störf við CLARIN-IS í dag. Meginverkefni hans fyrst um sinn verður að setja sig inn í tæknimál CLARIN og vinna síðan að því að koma upp tæknilegri þjónustumiðstöð (CLARIN B-centre) hjá Stofnun Árna Magnússonar í íslenskum fræðum.
Vefur CLARIN-IS hefur nú verið opnaður. Vefurinn er allur bæði á íslensku og ensku. Hann er enn í smíðum og efni mun bætast við smátt og smátt á næstunni. Trausti Dagsson verkefnisstjóri á Stofnun Árna Magnússonar á heiðurinn af uppsetningu og útliti vefsins en hann fylgir að miklu leyti stílsniði CLARIN.
Myndun íslensks CLARIN-landshóps stendur nú yfir. Landsfulltrúi hefur fundað með fulltrúum átta líklegra þátttökustofnana og borið undir þá drög að viljayfirlýsingu um samstarf. Fulltrúar fimm stofnana hafa þegar staðfest að þeir munu undirrita viljayfirlýsinguna og hinar þrjár stofnanirnar eru jákvæðar.
Auglýst hefur verið eftir útdráttum fyrir ársráðstefnu CLARIN sem að þessu sinni verður haldin í Leipzig í Þýskalandi dagana 30. september - 2. október. Aðalefni ráðstefnunnar að þessu sinni er „Rannsóknir í hug- og félagsvísindum sem byggjast á málföngum og máltækni“ (Humanities and Social Science research enabled by language resources and technology) en ýmis önnur efni koma líka til greina. Útdráttum skal skila gegnum EasyChair ekki síðar en 15. apríl. Sjá ráðstefnukall á heimasíðu CLARIN ERIC.