Varðveislusvæði CLARIN-IS (repository.clarin.is) inniheldur fjölda gagna, bæði hugbúnað til málvinnslu, málleg gagnasöfn og mállýsingar af ýmsum toga. Allar afurðir Máltækniáætlunar fóru til að mynda þangað inn og flest þau gögn sem finna mátti á www.malfong.is einnig. Hægt er að leita á varðveislusvæðinu en til að einfalda yfirsýn og leit eru helstu gögn birt hér.
Trjábanki er textasafn sem er þáttað og hefur upplýsingar um setningargerðir og setningarliði. Íslensku trjábankarnir eru greindur samkvæmt þáttunarskema sögulegu ensku Penn-trjábankanna (Penn Parsed Corpora of Historical English; PPCHE) en sumt hefur þó verið aðlagað að íslenskri setningargerð. Bæði Sögulegi íslenski trjábankinn og Sögulegi færeyski trjábankinn voru handleiðréttir en Samtímalegi íslenski trjábankinn og Taugavélþáttaði IcePaHC-trjábankinn voru hins vegar vélþáttaðir með íslensku taugaþáttunarpípunni IceNeuralParsingPipeline. GreynirCorpus inniheldur 10 milljónir málsgreina, að mestu úr fréttatextum frá 2015- 2021, og var markaður með Greyni frá Miðeind og nýtir sambærilegt mörkunarskema og fyrrnefndu trjábankarnir. Hluti hans, gullstaðallinn, hefur verið handleiðréttur. Þeim hluta var varpað yfir í venslatrébankann UD GreynirCorpus með tólinu UDConverter. Nánar má lesa um venslatrébanka á https://universaldependencies.org.
Markaðar málheildir geta verið af ýmsu tagi. Oft er um að ræða að textasafn hefur verið tilreitt (skipt upp í setningar og tóka), markað málfræðilega (hver tóki er markaður með textastreng sem segir til um t.d. orðflokk, kyn, fall o.s.frv.) og lemmað (uppflettimynd orðs fundin, t.d. hestur fyrir hests). Þetta á við um Risamálheildina, Mörkuðu íslensku málheildina, Orðtíðnibókina, Fornritin og Málheild fyrir íslenskan námsorðaforða. Orðtíðnibókin (OTB) er elst en hún var gefin út árið 1991 og inniheldur rúma hálfa milljón lesmálsorða sem sótt voru í brot úr 100 textum frá 1980 til 1989. Mörkuð íslensk málheild (MÍM) er mun stærri, inniheldur um 25 milljónir orða af fjölbreyttum textum frá tímabilinu 2000 - 2010. Risamálheldin (RMH) er bæði nýjust og stærst þessara málheilda og er gefin út með reglulegu millibili með nýjum textum. Ólíkt OTB og MÍM þá er RMH ekki “í jafnvægi”, þ.e. ekki hefur verið lögð áhersla á að velja álíka mikið af textum af mismunandi textategundum, heldur ert allt það efni sem tiltækt er sótt. Fyrir vikið er miklu mun meira af t.d. fréttatextum og textum úr opinberum skjölum heldur en t.d. bókmentum eða fræðilegum tímaritum. RMH er alltaf gefin út á TEI-sniði, bæði mörkuð og ómörkuð, en frá og með útgáfu 2022 er ómarkaða útgáfan einnig gefin út á JSONL-sniði sem er þægilegt þegar stór mállíkön eru þjálfuð. Fornritin innihalda markaða texta Íslendingasagna, Sturlungu, Heimskringlu og Landnámabókar. Málheild fyrir íslenskan námsorðaforða (MÍNO) var búin til með því að velja valda texta úr bæði MÍM og RMH, með það fyrir augum að hægt væri að vinna upp úr henni orðtíðnilista yfir íslenskan námsorðaforða.
Úr MÍM hafa verið búnir til gullstaðlar fyrir bæði málfræðimörkun (MÍM-GULL), nafnakennsl (MÍM-GUll_NER) og nafnaeinræðingu (MÍM-GULL-EL), en gullstaðla má nota til að þjálfa og prófa ýmis tól. Til að framkvæma próf á tóli þarf að skipta gullstaðlinum upp í þjálfunar- og prófunarstett, eins og gert hefur verið fyrir MÍM-GULL. Einnig voru unnin þjálfunar- og prófunarsett upp úr RMH og OTB sem nota má til að þjálfa t.d. málfræðimarkara eða lemmald.
Villumálheild er málheild þar sem villur hafa verið merktar, t.d. hvað varðar stafsetningu, málfræði og fleira. Villumálheildir gagnast meðal annars til að þróa og þjálfa málrýni. Íslenska villumálheildin (IceEC), Villumálheild íslensk barnamáls (IceCLEC), Villumálheild íslensku sem annars máls (IceL2EC) og Íslenska lesblinduvillumálheildin (IdeDEC) voru allar unnar við Háskóla Ísland og eru unnar á samskonar hátt, með sömu villukóðum. Óorð íslensku villumálheildarinnar og Listi af handleiðréttum atriðum í lokaritgerðum eru listar yfir villuorð í textum ásamt leiðréttingu. Gagnagrunnur íslenskra bannorða inniheldur lista af íslenskum orðum sem gætu talist óviðeigandi og/eða verið gildishlaðin á einhvern hátt.
Samhliða málheild er safn texta á að minnsta kosti tveimur tungumálum sem hafa verið samræmdir að minnsta kosti á setningastigi, þannig að setning á einu tungumáli kallast á við setningu á öðru tungumáli. Svo til allar málheildir og listar snúa að ensku og íslensku, en ein færsla inniheldur þýðingargögn fyrir pólsku og íslensku. ParIce er ensk-íslensk samhliða málheild sem er ætluð fyrir þjálfun á vélþýðingabúnaði. Hún samanstendur af ýmsum undirmálheildum og inniheldur rúmlega 3,5 milljón samlhiða setningapör. Aðrar málheildir sem listaðar eru hér eru svokallaðar gervimálheildir sem oft nýtast vel þegar ekki er til nægilegt magn af samhliða textum. Við gerð Samhliða gervimálheildarinnar var notast við bakþýðingar en þá er þýðingarvél (t.d. ísl.-ens.) notuð til að þýða texta og er þýðingin svo notuð sem þjálfunargögn fyrir líkan sem þýðir til baka í fyrra málið (ens.-ísl.). Við gerð Tilbúnu samhliða málheildarinnar (íslenska-enska) með innskotsorðaforða var hins vegar þeirri aðferð beitt að skipta út orðum í samhliða málheild fyrir önnur orð sem eru sjaldgæfari. En-Is Synthetic Parallel Named Entity Robustness Corpus og En-Is Semi-Synthetic Parallel Name Robustness Corpus eru gervimálheildir þar sem áhersla er á að auðga magn ýmissa sérnafna sem notuð eru við þjálfun með því að skeyta þeim inn í textana.
Samhliðuð þjálfunargögn má nota til að þjálfa og prófa líkön ætluð til að þýða á milli tveggja tungumála. ParIce: Þjálfunar- og prófunargögn eru valdir textar úr ParIce-málheildinni þar sem samhliðun texta hefur verið handleiðrétt og má nota til að þjálfa tól sem þýðir milli ensku og íslensku. Íslensk-ensk þjálfunargögn fyrir samröðun setninga eru hins vegar ætluð til að prófa sjálfvirkar samröðunaraðferðir. Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering er af svipuðu meiði en um er að ræða þjáfunarsett fyrir flokkara sem velur góðar samhliða setningar frá lakara setningum. Icelandic-English Parallel Sentence Extraction Dataset má nota til að prófa nákvæmni aðferða við að veiða samhliða setningapör úr sambærilegum málheildum. En-Is Parallel Named Entity Robustness Corpus - Test data inniheldur prófunargögn til að meta þýðingar á nafnatókum (t.d. manna- og staðarnöfnum) á milli íslensku og ensku.
Til að tryggja að nöfn borga og landa séu þýdd rétt, og réttar forsetningar séu notaðar með heitum þeirra á íslensku, þá má notast við listana í cities_is2en (heiti borga), countries_is2iso (heiti landa), isprep4cc (forsetningar á undan heitum ríkja) og isprep4isloc (forsetningar á undan bæja- og staðarheitum).
Málheildirnar innihalda allar hljóð og texta og má nota til að þróa máltæknilausnir á sviði talgervla og talgreina. Samrómur er afrakstur lýðvistunar og inniheldur því fjölda mismunandi radda. Talrómi tilheyra þrjú mismunandi gagnasöfn sem inniheldur um stuttar upptökur frá mismunandi röddum. Spjallrómur er samræðumálheild og inniheldur 54 samtöl og 102 viðmælendur. Kennslurómur er safn af hljóðskrám og samsvarandi textum úr kennslufyrirlestrum sem teknir voru upp í áföngum í Háskólanum í Reykjavík og Háskóla Íslands. Raddrómur samanstendur af hljóðbútum úr útvarps- og hlaðvarpsþáttum (einkum af RÚV). Gagnasöfnin RÚV TV og RÚV TV óþekktir málhafar innihalda hljóð og texta úr sjónvarpsefni frá RÚV. Ofangreindar málheildir eru allar afurðir máltækniáætlunar stjórnvalda. Aðrar málheildir eru eldri.
Gögn til skilningsprófana voru notuð til þess að mæla áhrif stafsetningarvillna á skilning á talgervilslestri.
Á varðsveislusvæðinu er að finna ýmsar tegundir orðabóka. Gögn veforðabókanna Íslensk nútímamálsorðabók og Islex orðabók eru þar, eins og þau voru á ákveðnum tímapunkti. Beygingarlýsing íslensks nútímamáls er safn beygingardæma sem birt er á vef Árnastofnunar. Fimm mismunandi gagnasöfn BÍN, eins og þau voru á ákveðnum tímapunkti, er hægt að sækja á varðveislusvæðið. Auk þess er hér að finna BinPackage, Python-pakka með stöðluðum forritaskilum til að einfalda og auðvelda notkun á gögnum BÍN fyrir forritara og vísindafólk. Aðrar orðabækur eru til að mynda framburðarorðabækur. Framburðarorðabókin (hluti af Hjal-verkefninu) inniheldur rúmlega 50 þúsund hljóðritaðar orðmyndir. Almenn framburðarorðabók fyrir talgreiningu byggir á Framburðarorðabókinni en inniheldur rúmlega 135 þúsund orðmyndum og má nota til að þróa talgreini. Íslensk framburðarorðabók fyrir máltækni inniheldur handyfirfarnar hljóðritanir í fjórum framburðartilbrigðum íslensku. Orðskiptingar inniheldur orðskiptingalista og orðskiptingamynstur sem sýna hvar í orðum mega vera skil milli lína.
Orðanet lýsa merkingarvenslum orða og orðasambanda. IceWordNet er íslensk útgáfa af Princeton Core WordNet þar sem orð eru flokkuð í nokkurs konar samheitamengi sem síðan eru tengd hvert öðru. Íslenskt orðanet byggir á annars konar greiningu á merkingarvenslum íslenskra orða og orðasambanda (sjá vef).
Orðagreyping (e. word embedding) er framsetning orða sem vigra og ættu orð sem notuð eru á svipaðan hátt (drengur, strákur) að fá svipað gildi, sem og sambærileg vensl orða (maður – kóngur, kona – drottning). Á varðveislusvæðinu eru nú þrjár orðagreypingar sem allar eru þjálfaðar á gögnum Risamálheildarinnar.
N-stæða geta verið t.d. tví- eða þrístæða, þ.e. tvö eða þrjú orð eins og þau koma fyrir í setningu. T.d. má ætla að þrístæðan “einu sinni var” komi oft fyrir í íslenskum ævintýrum. N-stæður eru m.a. notaðar til að spá fyrir um næsta orð í setningu. Icegrams er Python 3 pakki sem inniheldur stórt safn þrístæða fyrir íslensku.
Tilreiðarinn Tokenizer les inn texta skiptir honum upp í setningar og tóka (orða og greinarmerki).
Málfræðilegu markararnir ABL-tagger og CombiTagger lesa inn texta og marka hvern tóka með textatreng sem segir til um orðflokk og t.d. fall, kyn og tíð, eftir því sem við á. ABL-tagger er sá markari sem mest er notaður og gefur bestu niðurstöðurnar við mörkun íslenskra texta. Nafnakennsl fela í sér að texti er lesinn inn og ýmis orð eins og mannanöfn, staðarheiti og heiti fyrirtækja eru mörkuð sérstaklega. Á varðveislusvæðinu eru tvær hirslur sem hafa að geyma líkön fyrir nafnakennsl (Icelandic NER API - Ensamble model og Icelandic NER API - ELECTRA-base model).
Lemmaldið ABL-lemmatizer les inn markaðan texta og lemmar hann, þ.e. skráir uppflettimynd (lemmu) við hvert orð (t.d. hestur fyrir hests).
Þáttarar lesa inn texta og greina setningabyggingu hans eftir einhverri fyrirfram skilgreindri setningafræði. IceParser er reglubundinn grunnþáttari (e. shallow parser) og er betrumbætt útgáfa að hlutaþáttar IceNLP-pakkans sem þróaður var á árunum 2004 - 2007. Greynir er reglubundinn fullþáttari byggður á samhengisfrjálsri málfræði. Tauganetsþáttari Miðeindar er afbrigði af Berkeley tauganetsþáttaranum. Íslenska taugaþáttunarpípan er þáttunarpípa sem inniheldur öll skref sem eru nauðsynleg til að þátta hreinan íslenskan texta, þ.e. skref fyrir forvinnslu, þáttun og eftirvinnslu texta. Hún var þjálfuð á IcePaHC-trjábankanum.
Biaffine-based UD Parser og UD-þáttari byggður á COMBO eru venslaþáttarar (e. UD-parsers). UD-varpari og UDConverter eru ekki eiginlegir þáttara heldur taka þeir gögn sem hafa verið þáttuð á annað form og varpa yfir á venslamálfræðiform (e. UD structure).
Nokkur þýðingarlíkön er að finna á varðveislusvæðinu sem þýða milli íslensku og ensku og eitt sem þýðir milli íslensku og pólsku. Víðsamhengislíkan fyrir þýðingar milli ensku og íslensku er nýjasta líkanið og það sem best hefur reynst við þýðingar milli ensku og íslensku. Bestað víðsamhengislíkan fyrir þýðingar milli ensku og íslensku er léttara og hraðvirkara líkan byggt á því. GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku inniheldur almenn þýðingarlíkön sem eru byggð á margmála BART-líkani.
MT: Moses-SMT er kerfi til þess að þróa og keyra tölfræðilegar vélþýðingar. GreynirT2T er forritasafn til að þjálfa þýðingarlíkön sem þýða milli íslensku og ensku en GreynirT2T Serving inniheldur forrit og líkön til að keyra GreynirT2T Transformer vélþýðingarlíkön. GreynirSeq Domain Translation Pipeline er hugbúnaður sem sækir íslenskt-enskt þýðingarlíkan og getur aðlagað það fyrir þjálfun á samhliða gögnum sem eru merkt eftir óðali (e. domain).
Talgreining er það kallað þegar töluðu máli er breytt í texta. Nokkrar forskriftir er að finna á varðveislusvæðinu sem þróaðar voru fyrir hugbúnaðinn Kaldi eða önnur umhverfi til að búa til talgreina. Forskriftirnar sýna mismunandi leiðir til að þjálfa talgreina.
Greinarmerkingarlíkanið er Python-pakki sem greinarmerkjasetur íslenskan texta og nýtist því vel á texta sem kemur út úr talgreiningu. Íslenskt 6-stæðu mállíkan fyrir NeMo er n-stæðu mállíkan byggt á orðum á bitasniði til að nota með talgreinum sem eru búnir til í NVIDIA-NeMo-umhverfinu. Heyra er Android forrit fyrir talgreiningu.
Talgerving felur í sér að texta er breytt í tal. Nokkur líkön hafa verið þjálfuð á gögnum Talróms. WebRICE er veflesari þróaður við Háskólann í Reykjavík. Webrice-viðbótin er viðbót (e. add-on) fyrir Chrome ætluð almennum notendum en WebRice - Veflesari er ætlaður þeim sem vilja bæta veflesara við vefi sína.
TTS Textavinnsla inniheldur textavinnslupípu fyrir íslenska talgervla. TTS Skjalalesari inniheldur vefviðmót sem les inn texta og skilar hljóðskrá. ED-tól fyrir einkenni hljóðvistar með mælendaupplýsingum er tól til að merkja hver mælandi er í samræðum.
MAFIA má nota til að búa til talgreiningargögn á sjálfvirkan hátt úr upptökum og handriti með því að para saman hljóð og texta. Tækjasafn fyrir talmálsheildir er safn af tólum til að vinna hljóð og handrit yfir á staðlað form sem gerir þau tilbúin fyrir niðurbútun og samröðun.
Á varðveislusvæðinu eru þrjár hirslur sem innihalda tól sem nota má til að hljóðrita íslenskan texta. Reglubyggða hljóðritunarforritið byggir á handunnum reglum á meðan Hljóðritunarforrit fyrir íslensku byggir á líkönum. Pakkinn Hljóðritunarlíkön fyrir íslensku inniheldur líkön sem þjálfuð voru á LSTM tauganeti og skrifta sem nýtir líkönin.
Bæði g2p-þjónustan og Vefviðmót til þess að vinna með framburðarorðabækur eru tól (vefviðmót) sem nýtast við gerð framburðarorðabókar.
Málrýni felur í sér að texti er annaðhvort leiðréttur eða villur hans merktar. Nokkur líkön eru á varðveislusvæðinu sem ýmist leiðrétta eða flokka setningar og orð eftir villum. Leiðréttingarlíkan fyrir íslensku er þýðingalíkan sem í raun þýðir íslenskan texta með villum yfir í texta án villna. GreynirCorrect er Python 3 pakki og skipanalínutól sem bendir á og leiðréttir ýmsar tegundir stafsetningar- og málvillna. ByT5-base Transformer-líkan fyrir flokkun íslenskra setninga flokkar setningar eftir því hvort líklegt sé að þær innihaldi villur eða ekki. Fjölmerkja villuflokkari fyrir setningar greinir hvort setning innihaldi ákveðna villutegund (t.d. stafsetningar- eða málfræðivillu) en Villuflokkari fyrir tóka greinir á sambærilegan hátt hvort orð innihaldi ákveðna villutegund.
Auk líkana er að finna hugbúnað og vefsíður sem snúa að málrýni. Yfirlestur inniheldur kóða fyrir vefsíðu sem býður upp á málrýni. Málrýnivirknin styðst við GreynirCorrect. Yfirlestur Docs og Yfirlestur Word innihalda bakendakóða viðbótar (e. add-on) fyrir Google Docs og Mircosoft Word. Hunspell-is er hugbúnaður sem les inn gagnabanka íslensku Wikiorðabókarinnar og útbýr orðabók fyrir villuleitarforritið Hunspell sem hægt er að nota m.a. með LibreOffice, Firefox, Thunderbird og Google Chrome.
Hér að neðan eru tilgreind önnur gögn sem eru leitarbær eða hægt er að sækja annars staðar en á varðveislusvæði CLARIN-IS.