CLARIN-IS varðveislusafn

Varðveislusvæði CLARIN-IS (repository.clarin.is) inniheldur fjölda gagna, bæði hugbúnað til málvinnslu, málleg gagnasöfn og mállýsingar af ýmsum toga. Allar afurðir Máltækniáætlunar fóru til að mynda þangað inn og flest þau gögn sem finna mátti á www.malfong.is einnig. Hægt er að leita á varðveislusvæðinu en til að einfalda yfirsýn og leit eru helstu gögn birt hér þar sem þeim hefur verið skipt upp í flokka og undirflokka. Einnig fylgja skýringar með þar sem rætt er um notagildi hinna ýmsu málgagna og tóla.

  • Hverri færslu fylgir einn eða fleiri hlekkir sem vísa á varðveislusvæði CLARIN (fyrsti hlekkur vísar á nýjustu færslu).
  • Ef gögn má einig finna á GitHub eða HuggingFace er hlekkur á viðkomandi hirslu birtur.
  • Táknið vísar á upplýsingasíðu sem tengist færslu.
  • Táknið vísar á vef með leitarvél sem tengist viðkomandi gögnum.

[opna allt] [loka öllu]

Málheildir og prófunargögn

Trjábanki er textasafn sem er þáttað og hefur upplýsingar um setningargerðir og setningarliði. Íslensku trjábankarnir eru greindur samkvæmt þáttunarskema sögulegu ensku Penn-trjábankanna (Penn Parsed Corpora of Historical English; PPCHE) en sumt hefur þó verið aðlagað að íslenskri setningargerð. Bæði Sögulegi íslenski trjábankinn og Sögulegi færeyski trjábankinn voru handleiðréttir en Samtímalegi íslenski trjábankinn og Taugavélþáttaði IcePaHC-trjábankinn voru hins vegar vélþáttaðir með íslensku taugaþáttunarpípunni IceNeuralParsingPipeline. GreynirCorpus inniheldur 10 milljónir málsgreina, að mestu úr fréttatextum frá 2015- 2021, og var markaður með Greyni frá Miðeind og nýtir sambærilegt mörkunarskema og fyrrnefndu trjábankarnir. Hluti hans, gullstaðallinn, hefur verið handleiðréttur. Þeim hluta var varpað yfir í venslatrébankann UD GreynirCorpus með UD-varpara fyrir GreyniCorpus. Nánar má lesa um venslatrébanka á https://universaldependencies.org.

  • Samtímalegi íslenski trjábankinn (IceConTree) 1.1 | 1.0
  • Sögulegi íslenski trjábankinn (IcePaHC) 2024.03 0.9
  • Sögulegi færeyski trjábankinn 0.1
  • Taugavélþáttaði IcePaHC-trjábankinn (NeuralMIcePaHC) 20.05 | 20.04
  • GreynirCorpus 21.06 | 20.05 | 20.05 || GitHub
  • UD GreynirCorpus 22.06

Markaðar málheildir geta verið af ýmsu tagi. Oft er um að ræða að textasafn hefur verið tilreitt (skipt upp í setningar og tóka), markað málfræðilega (hver tóki er markaður með textastreng sem segir til um t.d. orðflokk, kyn, fall o.s.frv.) og lemmað (uppflettimynd orðs fundin, t.d. 'hestur' fyrir 'hests'). Þetta á við um Risamálheildina, Mörkuðu íslensku málheildina, Orðtíðnibókina, Fornritin og Málheild fyrir íslenskan námsorðaforða. Orðtíðnibókin (OTB) er elst en hún var gefin út árið 1991 og inniheldur rúma hálfa milljón lesmálsorða sem sótt voru í brot úr 100 textum frá 1980 til 1989. Mörkuð íslensk málheild (MÍM) er mun stærri, inniheldur um 25 milljónir orða af fjölbreyttum textum frá tímabilinu 2000 - 2010. Risamálheldin (RMH) er bæði nýjust og stærst þessara málheilda og er gefin út með reglulegu millibili með nýjum textum. Ólíkt OTB og MÍM þá er RMH ekki “í jafnvægi”, þ.e. ekki hefur verið lögð áhersla á að velja álíka mikið af textum af mismunandi textategundum, heldur ert allt það efni sem tiltækt er sótt. Fyrir vikið er miklu mun meira af t.d. fréttatextum og textum úr opinberum skjölum heldur en t.d. bókmentum eða fræðilegum tímaritum. RMH er alltaf gefin út á TEI-sniði, bæði mörkuð og ómörkuð, en frá og með útgáfu 2022 er ómarkaða útgáfan einnig gefin út á JSONL-sniði sem er þægilegt þegar stór mállíkön eru þjálfuð. Fornritin innihalda markaða texta Íslendingasagna, Sturlungu, Heimskringlu og Landnámabókar. Málheild fyrir íslenskan námsorðaforða (MÍNO) var búin til með því að velja valda texta úr bæði MÍM og RMH, með það fyrir augum að hægt væri að vinna upp úr henni orðtíðnilista yfir íslenskan námsorðaforða.

Úr MÍM hafa verið búnir til gullstaðlar fyrir bæði málfræðimörkun (MÍM-GULL), nafnakennsl (MÍM-GUll_NER) og nafnaeinræðingu (MÍM-GULL-EL), en gullstaðla má nota til að þjálfa og prófa ýmis tól. Til að framkvæma próf á tóli þarf að skipta gullstaðlinum upp í þjálfunar- og prófunarstett, eins og gert hefur verið fyrir MÍM-GULL. Einnig voru unnin þjálfunar- og prófunarsett upp úr RMH og OTB sem nota má til að þjálfa t.d. málfræðimarkara eða lemmald.

Málheildir
  • Risamálheildin (RMH) 2022 |2021 || HuggingFace ||
  • Risamálheildin á JSON-sniði 2022
  • Mörkuð íslensk málheild (MIM) 1.0
  • Orðtíðnibók (OTB) 18.10 | 12.11
  • Fornritin sækja
  • Málheild fyrir íslenskan námsorðaforða (MÍNO) 1.0 | 0.9
Gullstaðlar og prófunarsett

Villumálheild er málheild þar sem villur hafa verið merktar, t.d. hvað varðar stafsetningu, málfræði og fleira. Villumálheildir gagnast meðal annars til að þróa og þjálfa málrýni. Íslenska villumálheildin (IceEC), Villumálheild íslensk barnamáls (IceCLEC), Villumálheild íslensku sem annars máls (IceL2EC) og Íslenska lesblinduvillumálheildin (IdeDEC) voru allar unnar við Háskóla Ísland og eru unnar á samskonar hátt, með sömu villukóðum. Íslenska ruglingsmengjamálheildin inniheldur lista yfir lík orð sem fólk á til að ruglast á (t.d. 'hvísl' og 'kvísl'), upplýsingar um tíðni þeirra og mismunandi málfræðimörkun.

Óorð íslensku villumálheildarinnar og Listi af handleiðréttum atriðum í lokaritgerðum eru listar yfir villuorð í textum ásamt leiðréttingu. Gagnagrunnur íslenskra bannorða inniheldur lista af íslenskum orðum sem gætu talist óviðeigandi og/eða verið gildishlaðin á einhvern hátt en Íslenskar leitarfyrirspurnarvillur inniheldur lista með leitarfyrirspurnavillum notenda sem gefa ekki leitarniðurstöður í Beygingarlýsingu íslensks nútímamáls

Málheildir
  • Íslenska villumálheildin (IceEC) 1.1 | 1.0 | 0.9
  • Villumálheild íslensks barnamáls (IceCLEC) 1.1 | 1.0 || GitHub
  • Villumálheild íslensku sem annars máls (IceL2EC) 1.3 | 1.2 | 1.1 | 1.0 || GitHub
  • Íslenska lesblinduvillumálheildin (IceDEC) 1.2 | 1.1 | 1.0 || GitHub
  • Íslenska ruglingsmengjamálheildin (ICoSC) 2.0 | 1.0
Listar
  • Óorð íslensku villumálheildarinnar 20.09
  • Listi af handleiðréttum atriðum í lokaritgerðum 22.10
  • Gagnagrunnur íslenskra bannorða (iceTaboo) 1.0 || GitHub
  • Íslenskar leitarfyrirspurnarvillur (IceSQuEr) 0.1

Samhliða málheild er safn texta á að minnsta kosti tveimur tungumálum sem hafa verið samræmdir að minnsta kosti á setningastigi, þannig að setning á einu tungumáli kallast á við setningu á öðru tungumáli. Svo til allar málheildir og listar snúa að ensku og íslensku, en ein færsla inniheldur þýðingargögn fyrir pólsku og íslensku. ParIce er ensk-íslensk samhliða málheild sem er ætluð fyrir þjálfun á vélþýðingabúnaði. Hún samanstendur af ýmsum undirmálheildum og inniheldur rúmlega 3,5 milljón samlhiða setningapör. Aðrar málheildir sem listaðar eru hér eru svokallaðar gervimálheildir sem oft nýtast vel þegar ekki er til nægilegt magn af samhliða textum. Við gerð Samhliða gervimálheildarinnar var notast við bakþýðingar en þá er þýðingarvél (t.d. ísl.-ens.) notuð til að þýða texta og er þýðingin svo notuð sem þjálfunargögn fyrir líkan sem þýðir til baka í fyrra málið (ens.-ísl.). Við gerð Tilbúnu samhliða málheildarinnar (íslenska-enska) með innskotsorðaforða var hins vegar þeirri aðferð beitt að skipta út orðum í samhliða málheild fyrir önnur orð sem eru sjaldgæfari. En-Is Synthetic Parallel Named Entity Robustness Corpus og En-Is Semi-Synthetic Parallel Name Robustness Corpus eru gervimálheildir þar sem áhersla er á að auðga magn ýmissa sérnafna sem notuð eru við þjálfun með því að skeyta þeim inn í textana.

Samhliðuð þjálfunargögn má nota til að þjálfa og prófa líkön ætluð til að þýða á milli tveggja tungumála. ParIce: Þjálfunar- og prófunargögn eru valdir textar úr ParIce-málheildinni þar sem samhliðun texta hefur verið handleiðrétt og má nota til að þjálfa tól sem þýðir milli ensku og íslensku. Íslensk-ensk þjálfunargögn fyrir samröðun setninga eru hins vegar ætluð til að prófa sjálfvirkar samröðunaraðferðir. Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering er af svipuðu meiði en um er að ræða þjáfunarsett fyrir flokkara sem velur góðar samhliða setningar frá lakari setningum. Icelandic-English Parallel Sentence Extraction Dataset má nota til að prófa nákvæmni aðferða við að veiða samhliða setningapör úr sambærilegum málheildum. En-Is Parallel Named Entity Robustness Corpus - Test data inniheldur prófunargögn til að meta þýðingar á nafnatókum (t.d. manna- og staðarnöfnum) á milli íslensku og ensku.

Til að tryggja að nöfn borga og landa séu þýdd rétt, og réttar forsetningar séu notaðar með heitum þeirra á íslensku, þá má notast við listana í cities_is2en (heiti borga), countries_is2iso (heiti landa), isprep4cc (forsetningar á undan heitum ríkja) og isprep4isloc (forsetningar á undan bæja- og staðarheitum).

Málheildir (íslenska og enska)
  • ParIce: Ensk-íslensk hliðstæð málheild 21.10 | 19.10
  • Tilbúin samhliða málheild (íslenska-enska) með innskotsorðaforða 1.0
  • Samhliða gervimálheild (EN-IS) 21.07 | 20.09
  • Long Context Synthetic Translation Pairs for English and Icelandic 22.09
  • En-Is Synthetic Parallel Named Entity Robustness Corpus 1.0
  • En-Is Semi-Synthetic Parallel Name Robustness Corpus 1.0
Málheildir (íslenska og pólska)
  • Þýðingargögn fyrir pólsku og íslensku 24.09
Þjálfunargögn
  • ParIce: Þjálfunar- og prófunargögn 21.10 | 20.05 
  • Íslensk-ensk þjálfunargögn fyrir samröðun setninga 21.10
  • Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering sækja
  • Icelandic-English Parallel Sentence Extraction Dataset 21.10
  • En-Is Parallel Named Entity Robustness Corpus - Test data 1.0
Listar

Samrómur er afrakstur lýðvistunar og inniheldur því fjölda mismunandi radda. Spjallrómur er samræðumálheild og inniheldur 54 samtöl og 102 viðmælendur. Kennslurómur er safn af hljóðskrám og samsvarandi textum úr kennslufyrirlestrum sem teknir voru upp í áföngum í Háskólanum í Reykjavík og Háskóla Íslands. Raddrómur samanstendur af hljóðbútum úr útvarps- og hlaðvarpsþáttum (einkum af RÚV). Gagnasöfnin RÚV-sjónvarp, RÚV-sjónvarp óþekktir málhafar og Fjölmiðlatal innihalda hljóð og texta úr sjónvarp- og útvarpsefni frá RÚV. Ofangreindar málheildir eru allar afurðir máltækniáætlunar stjórnvalda. Aðrar málheildir sem nota má fyrir talgreiningu eru eldri.

Raddsýni og upptökur
  • Samrómur 21.05
  • Samrómur - fyrirspurnir 21.12
  • Samrómur - börn 21.09
  • Samrómur - L2 22.09
  • Samrómur - hermun 22.09
  • Samrómur - óstaðfest 22.07
  • Spjallrómur - Icelandic Conversational Speech 22.01 || GitHub
  • Kennslurómur - Icelandic Lectures 22.01
  • Raddrómur - íslensk talgögn 22.09
  • RÚV-sjónvarp 20.12
  • RÚV-sjónvarp - óþekktir málhafar 22.02
  • Fjölmiðlatal 22.02
  • Hjal málheildin sækja
  • Málrómur sækja
  • Alþingisumræður sækja
  • Alþingisgögnin (til talgreiningar) sækja
  • Jensson málheildin sækja
  • Þór málheildin sækja
  • Rúv málheildin sækja
  • Ravnursson - upptökur og hljóðritanir á færeysku sækja

Talrómi tilheyra þrjú mismunandi gagnasöfn sem innihalda stuttar upptökur frá mismunandi röddum. Þau eru ætluð til þjálfunar talgervla.

Mörkuð málheild samstafa orða inniheldur lista af samstafa orðum sem og setningar sem innihalda þessi orð, merkt eftir framburði. Gangasettið má m.a. nota til þess að þjálfa líkan sem flokkar samstafa orð eftir framburði og til málvísindarannsókna. Málheild fyrir textanormun inniheldur nokkur textasöfn fyrir og eftir nörmun (e. normalization). Normun, í þessu tilviki, felur í sér að t.d. tölustafir, skammtafanir og ýmis tákn eru rituð með bókstöfum ('14,6 kg' verður til að mynda 'fjórtán komma sex kílógrömm'). Textasafnið má nota til að þjálfa normunartól sem normar texta áður en hann er sendur til talgervingar

Gögn til skilningsprófana inniheldur setningar til skilningsprófana (e. intelligibility tests) fyrir talgervla og má nota til þess að mæla áhrif stafsetningarvillna á skilning á talgervilslestri. Um er að ræða 50 setningar þar sem hver setning kemur tvisvar fyrir: einu sinni rétt skrifuð og einu sinni með einni stafsetningarvillu.

Raddsýni og upptökur
Textamálheildir
  • Mörkuð málheild samstafa orða (e. homographs)  24.04
  • Málheild fyrir textanormun (Text Normalization Corpus) 21.10
Prófunargögn
  • Gögn til skilningsprófana 22.01

Viðmiðunargögn eru gögn sem nota má við afkastaprófun (e. benchmark) ýmissa tóla. Það getur verið gagnlegt að leggja þannig próf fyrir mállíkön til að sjá hversu góð þau eru. Þau viðmiðunargögn sem hér eru má nota til að meta málkunnáttu stórra mállíkana, málfræðilega getu þeirra og þekkingu á íslenskri menningu og sögu.

Íslensk viðmiðunargögn fyrir stór mállíkön nýtast til að meta málkunnáttu og málfræðilega getu stórra mállíkana fyrir íslensku. Íslensk viðmiðunargögn: réttritun á íslensku samanstanda af dæmum um ritaðan texta sem samrýmist ekki málstaðli með tilliti til staf- og greinarmerkjasetningar ásamt leiðréttum dæmum og stuttum og lengri útskýringum sem byggjast á opinberum ritreglum fyrir íslensku. Íslensk viðmiðunargögn: málnotkun samanstanda af ríflega 300 setningum sem samrýmast ekki málstaðli með tilliti til málfars og samsvarandi leiðréttum setningum. Gagnasett spurningarsvörunar á sviði menningar og sögu er ætlað að mæla þekkingu mállíkana á íslenskri menningu og sögu og getu þess til þess að svara spurningum rétt.

  • Íslensk viðmiðunargögn fyrir stór mállíkön 24.10
  • Íslensk viðmiðunargögn: réttritun á íslensku 24.10
  • Íslensk viðmiðunargögn: málnotkun 24.09
  • Gagnasett spurningarsvörunar á sviði menningar og sögu 24.10
  • NQiI - Natural Questions In Icelandic 1.1 | 1.0
  • Íslenska WinoGrande málheildin 1.0
  • RUQuAD - Málheild með spurningum og svörum (Háskólinn í Reykjavík ) 22.02
  • IceSum - Icelandic Text Summarization Corpus 22.09 | 21.11
  • Íslenskt unglingamál

Orðabækur, orðanet og orðasöfn

Á varðsveislusvæðinu er að finna ýmsar tegundir orðabóka. Gögn veforðabókanna Íslensk nútímamálsorðabók og Islex orðabók eru þar, eins og þau voru á ákveðnum tímapunkti. Beygingarlýsing íslensks nútímamáls er safn beygingardæma sem birt er á vef Árnastofnunar. Fimm mismunandi gagnasöfn BÍN, eins og þau voru á ákveðnum tímapunkti, er hægt að sækja á varðveislusvæðið. Auk þess er hér að finna BinPackage, Python-pakka með stöðluðum forritaskilum til að einfalda og auðvelda notkun á gögnum BÍN fyrir forritara og vísindafólk. Aðrar orðabækur eru til að mynda framburðarorðabækur. Framburðarorðabókin (hluti af Hjal-verkefninu) inniheldur rúmlega 50 þúsund hljóðritaðar orðmyndir. Almenn framburðarorðabók fyrir talgreiningu byggir á Framburðarorðabókinni en inniheldur rúmlega 135 þúsund orðmynir og má nota til að þróa talgreini. Íslensk framburðarorðabók fyrir máltækni inniheldur handyfirfarnar hljóðritanir í fjórum framburðartilbrigðum íslensku. Orðskiptingar inniheldur orðskiptingalista og orðskiptingamynstur sem sýna hvar í orðum mega vera skil milli lína.

Veforðabækur
  • Íslensk nútímamálsorðabók 2020
  • Islex orðabókin 2022 | 2013
Beygingarlýsing íslensks nútímamáls
Aðrar orðabækur

Orðanet lýsa merkingarvenslum orða og orðasambanda. IceWordNet er íslensk útgáfa af Princeton Core WordNet þar sem orð eru flokkuð í nokkurs konar samheitamengi sem síðan eru tengd hvert öðru. Íslenskt orðanet byggir á annars konar greiningu á merkingarvenslum íslenskra orða og orðasambanda (sjá vef).

Stopporðalisti fyrir Risamálheildina inniheldur næstum 60 þúsund 'stopporð' úr Risamálheidlinni frá 2019. Stopporð eru orð sem oft er ástæða til að hunsa þegar verið er að leita í stórum málheildum, eins og t.d. skammstafanir, erlend orð eða kerfisorð. Orðtíðnisti MÍNO inniheldur tíðnilista sem unninn var upp úr Málheild fyrir íslenskan námsorðaforða (MÍNO). Orðum sem koma fyrir 100 sinnum eða oftar í málheildinni er raðað eftir tíðni og telur heildarorðtíðnilistinn 9.741 orð. Listi yfir íslenskan námsorðaforða inniheldur orð MÍNO sem eru umfram algengustu orðin, orð sem eru notuð þvert á fræðasvið og gegna lykilhlutverki þegar fjallað er um margvísleg og flókin málefni. Ensk-íslenskur orðalisti inniheldur næstum 233 þúsund íslensk-ensk pör. Orðalistinn var settur saman með sjálfvirkum aðferðum og svo yfirfarinn. Pakkinn Orðasambönd á íslensku og ensku samanstendur af þúsund íslenskum orðasamböndum sem fengin eru úr ISLEX-gagnagrunni Árnastonfunar. Gögnin hafa að geyma enska samsvörun orðasambandanna og bókstaflega merkingu þeirra í hvoru máli fyrir sig auk dæmasetninga og lykilorða.
  • Stopporðalisti fyrir Risamálheildina 21.08
  • Orðtíðnilisti Málheildar fyrir íslenskan námsorðaforða (MÍNO) 1.0
  • Listi yfir íslenskan námsorðaforða (LÍNO) 1.0
  • Ensk-íslenskur / íslensk-enskur orðalisti 21.09
  • Orðasambönd á íslensku og ensku 22.09

Mállýsingar

Orðagreyping (e. word embedding) er framsetning orða sem vigra og ættu orð sem notuð eru á svipaðan hátt (drengur, strákur) að fá svipað gildi, sem og sambærileg vensl orða (maður – kóngur, kona – drottning). Á varðveislusvæðinu eru nú þrjár orðagreypingar sem allar eru þjálfaðar á gögnum Risamálheildarinnar og með stillingum sem eiga að gefa há meðaltalsgildi þegar þau eru keyrð á IceBATS prófunarsafnið. IceBATS-prófunarsafnið er íslensk útgáfa BATS eða Bigger Analogy Test Set. Tilgangur BATS er að meta gæði orðgreypinga með notkun hlutfallsjafna (analógíu) sem sýna fram á getu orðgreypingalíkans til að fanga ýmiskonar merkingarfræðileg og orðhlutafræðileg tengsl orðapara með notkun vigrafjarlægðaraðferðar.

  • Orðgreypingar – Word2Vec fínstillt fyrir IceBATS 22.04
  • Orðgreypingar – GloVe fínstillt IceBATS 22.04
  • Orðgreypingar - FastText fínstillt fyrir IceBATS 22.04
  • IceBATS-prófunarsafnið (The Icelandic Bigger Analogy Test Set) 21.06

N-stæða geta verið t.d. tví- eða þrístæða, þ.e. tvö eða þrjú orð eins og þau koma fyrir í setningu. T.d. má ætla að þrístæðan “einu sinni var” komi oft fyrir í íslenskum ævintýrum. N-stæður eru m.a. notaðar til að spá fyrir um næsta orð í setningu. Icegrams er Python 3 pakki sem inniheldur stórt safn þrístæða fyrir íslensku.

Icelandic Pronunciation hefur að geyma skjalið „A Short Overview of the Icelandic Sound System, Pronunciation Variants, and Phonetic Transcription“ þar sem fjallað er um íslenska hljóðkerfið. Mynstur og setningar  er hluti af Hjal-verkefninu og inniheldur sjaldgæf stafamynstur í íslensku og setningar sem hafa að geyma orð með þessum mynstrum.

  • Icelandic Pronunciation 20.10
  • Mynstur og setningar sækja

Hugbúnaður og líkön

Tilreiðarar

Tilreiðarinn Tokenizer les inn texta skiptir honum upp í setningar og tóka (orða og greinarmerki).

Markarar

Málfræðilegu markararnir ABL-tagger og CombiTagger lesa inn texta og marka hvern tóka með textatreng sem segir til um orðflokk og t.d. fall, kyn og tíð, eftir því sem við á. ABL-tagger er sá markari sem mest er notaður og gefur bestu niðurstöðurnar við mörkun íslenskra texta. Nafnakennsl fela í sér að texti er lesinn inn og ýmis orð eins og mannanöfn, staðarheiti og heiti fyrirtækja eru mörkuð sérstaklega. Á varðveislusvæðinu eru tvær hirslur sem hafa að geyma líkön fyrir nafnakennsl (Icelandic NER API - Ensamble model og Icelandic NER API - ELECTRA-base model).

Lemmöld

Lemmaldið ABL-lemmatizer les inn markaðan texta og lemmar hann, þ.e. skráir uppflettimynd (lemmu) við hvert orð (t.d. hestur fyrir hests).

Þáttarar

Þáttarar lesa inn texta og greina setningabyggingu hans eftir einhverri fyrirfram skilgreindri setningafræði. IceParser er reglubundinn grunnþáttari (e. shallow parser) og er betrumbætt útgáfa að hlutaþáttar IceNLP-pakkans sem þróaður var á árunum 2004 - 2007. Greynir er reglubundinn fullþáttari byggður á samhengisfrjálsri málfræði. Tauganetsþáttari Miðeindar er afbrigði af Berkeley tauganetsþáttaranum. Íslenska taugaþáttunarpípan er þáttunarpípa sem inniheldur öll skref sem eru nauðsynleg til að þátta hreinan íslenskan texta, þ.e. skref fyrir forvinnslu, þáttun og eftirvinnslu texta. Hún var þjálfuð á IcePaHC-trjábankanum.

Biaffine-based UD Parser og UD-þáttari byggður á COMBO eru venslaþáttarar (e. UD-parsers). UD-varpararnir tveir eru ekki eiginlegir þáttara heldur taka þeir gögn sem hafa verið þáttuð á annað form og varpa yfir á venslamálfræðiform (e. UD structure).

Nokkur þýðingarlíkön er að finna á varðveislusvæðinu sem þýða milli íslensku og ensku og eitt sem þýðir milli íslensku og pólsku. Víðsamhengislíkan fyrir þýðingar milli ensku og íslensku er nýjasta líkanið og það sem best hefur reynst við þýðingar milli ensku og íslensku. Bestað víðsamhengislíkan fyrir þýðingar milli ensku og íslensku er léttara og hraðvirkara líkan byggt á því. GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku inniheldur almenn þýðingarlíkön sem eru byggð á margmála BART-líkani.

MT: Moses-SMT er kerfi til þess að þróa og keyra tölfræðilegar vélþýðingar. GreynirT2T er forritasafn til að þjálfa þýðingarlíkön sem þýða milli íslensku og ensku en GreynirT2T Serving inniheldur forrit og líkön til að keyra GreynirT2T Transformer vélþýðingarlíkön. GreynirSeq Domain Translation Pipeline er hugbúnaður sem sækir íslenskt-enskt þýðingarlíkan og getur aðlagað það fyrir þjálfun á samhliða gögnum sem eru merkt eftir óðali (e. domain).

Þýðingarlíkön
  • Víðsamhengislíkan fyrir þýðingar milli ensku og íslensku 22.09
  • Bestað víðsamhengislíkan fyrir þýðingar milli ensku og íslensku 22.09
  • GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku 1.0
  • GreynirTranslate - mBART25 NMT (með lagamissi) þýðingarlíkön fyrir íslensku og ensku 1.0
  • Íslenskt-pólskt þýðingarlíkan (tvíátta) 22.09
Stuðningstól
  • MT: Moses-SMT 1.0
  • GreynirSeq Domain Translation Pipeline 22.06 || GitHub
  • GreynirT2T - En--Is NMT með Tensor2Tensor 1.0 || GitHub
  • GreynirT2T Serving - En--Is NMT Inference and Pre-trained Models 1.0 || GitHub
  • Vefviðmót fyrir vélþýðingakerfi sem styðja Google Translate 20.05 || GitHub

Talgreining er það kallað þegar töluðu máli er breytt í texta. Ýmsar málheildir og mállíkön eru til sem nota má við þróun tóla til talgreiningar. Málheildirnar má finna undir Málheildir tengdar talgreiningu en mállíkönin eru hér að neðan. Nokkrar forskriftir er að finna á varðveislusvæðinu sem þróaðar voru fyrir hugbúnaðinn Kaldi eða önnur umhverfi til að búa til talgreina. Forskriftirnar sýna mismunandi leiðir til að þjálfa talgreina með því að sameina valda málheild og mállíkan.

Greinarmerkingarlíkanið er Python-pakki sem greinarmerkjasetur íslenskan texta og nýtist því vel á texta sem kemur út úr talgreiningu. Heyra er Android forrit fyrir talgreiningu.

Sýnisforskriftir
  • Samrómur-börn - sýnisforskriftir fyrir Kalda 22.01
  • Samrómur-unglingar - sýnisforskriftir fyrir Kalda 22.06
  • Samrómur-L2 - sýnisforskriftir fyrir Kalda 22.10
  • Samrómur-NeMo sýnisforskriftir fyrir NVIDIA-NeMo 22.06 || GitHub
  • Samrómur-DeepSpeech sýnisforskriftir fyrir Mozilla DeepSpeech 22.06 || GitHub
  • RÚV-DI Speaker Diarization (Kaldi) 21.10 | 20.09
  • RÚV-DI Speaker Diarization v5 líkön (Kaldi) 21.05
  • Raddskipanir og fyrirspurnir (forskriftir fyrir Kalda) 22.10 || GitHub
Mállíkön
  • Íslensk mállíkön með framburðarorðabók 22.01
  • Íslenskt 6-stæðu mállíkan fyrir NeMo (Binary útgáfa) 22.06
  • Greinarmerkingarlíkan 20.09 || GitHub
  • DeepSpeech matsgjafi fyrir íslensku 22.06
Annað

Talgerving felur í sér að texta er breytt í tal. Nokkrar málheildir eru til sem nota má við þróun tóla til talgervingar en þær má finna undir Málheildir->Raddsýni og upptökur. Nokkur líkön hafa verið þjálfuð á gögnum Talróms. WebRICE er veflesari þróaður við Háskólann í Reykjavík. Webrice-viðbótin er viðbót (e. add-on) fyrir Chrome ætluð almennum notendum en WebRice - Veflesari er ætlaður þeim sem vilja bæta veflesara við vefi sína.

TTS Textavinnsla inniheldur textavinnslupípu fyrir íslenska talgervla. TTS Skjalalesari inniheldur vefviðmót sem les inn texta og skilar hljóðskrá. FED-tól fyrir einkenni hljóðvistar með mælendaupplýsingum er tól til að merkja hver mælandi er í samræðum.

Líkön
  • Multi-speaker GlowTTS líkan fyrir Talrómur 2 (forútgáfa) 22.10 || GitHub
  • GlowTTS líkan fyrir Talrómur 1 22.10 || GitHub
  • Talrómur: TTS-líkan 22.10
Veflesari
Annað

MAFIA má nota til að búa til talgreiningargögn á sjálfvirkan hátt úr upptökum og handriti með því að para saman hljóð og texta. Tækjasafn fyrir talmálsheildir er safn af tólum til að vinna hljóð og handrit yfir á staðlað form sem gerir þau tilbúin fyrir niðurbútun og samröðun.

  • Íslenskur samstöfuflokkari (Icelandic Homograph Classifier) 24.04 || GitHub
  • MAFIA (Match-Finder Aligner): Tal/texta-samhliðunartól 22.06 || GitHub
  • Tækjasafn fyrir talmálsheildir 22.06

Á varðveislusvæðinu eru þrjár hirslur sem innihalda tól sem nota má til að hljóðrita íslenskan texta. Reglubyggða hljóðritunarforritið byggir á handunnum reglum á meðan Hljóðritunarforrit fyrir íslensku byggir á líkönum. Pakkinn Hljóðritunarlíkön fyrir íslensku inniheldur líkön sem þjálfuð voru á LSTM tauganeti og skrifta sem nýtir líkönin.

Bæði g2p-þjónustan og Vefviðmót til þess að vinna með framburðarorðabækur eru tól (vefviðmót) sem nýtast við gerð framburðarorðabókar.

Hljóðritunarforrit og -líkön
  • Reglubundið hljóðritunarforrit (g2p) fyrir íslensku 20.10
  • Hljóðritunarforrit (g2p) fyrir íslensku 22.10
  • Hljóðritunarlíkön fyrir íslensku - þjálfuð á LSTM tauganeti 20.10
Vefviðmót fyrir gerð framburðarorðabóka
  • g2p-þjónusta 20.11
  • Vefviðmót til þess að vinna með framburðarorðabækur. 20.10

Málrýni felur í sér að texti er annaðhvort leiðréttur eða villur hans merktar. Nokkur líkön eru á varðveislusvæðinu sem ýmist leiðrétta eða flokka setningar og orð eftir villum. Leiðréttingarlíkan fyrir íslensku er þýðingalíkan sem í raun þýðir íslenskan texta með villum yfir í texta án villna. GreynirCorrect er Python 3 pakki og skipanalínutól sem bendir á og leiðréttir ýmsar tegundir stafsetningar- og málvillna. ByT5-base Transformer-líkan fyrir flokkun íslenskra setninga flokkar setningar eftir því hvort líklegt sé að þær innihaldi villur eða ekki. Fjölmerkja villuflokkari fyrir setningar greinir hvort setning innihaldi ákveðna villutegund (t.d. stafsetningar- eða málfræðivillu) en Villuflokkari fyrir tóka greinir á sambærilegan hátt hvort orð innihaldi ákveðna villutegund.

Auk líkana er að finna hugbúnað og vefsíður sem snúa að málrýni. Yfirlestur inniheldur kóða fyrir vefsíðu sem býður upp á málrýni. Málrýnivirknin styðst við GreynirCorrect. Yfirlestur Docs og Yfirlestur Word innihalda bakendakóða viðbótar (e. add-on) fyrir Google Docs og Mircosoft Word. Hunspell-is er hugbúnaður sem les inn gagnabanka íslensku Wikiorðabókarinnar og útbýr orðabók fyrir villuleitarforritið Hunspell sem hægt er að nota m.a. með LibreOffice, Firefox, Thunderbird og Google Chrome.

Líkön
  • Íslenskt GTP-SW3 líkan fyrir stafsetningar- og málfræðirýni 04.24
  • Leiðréttingarlíkan fyrir íslensku (fínþjálfað byT5-base Transformer-líkan) - Yfirlestur 22.09
  • GreynirCorrect 3.4.5 | 3.4.4 | 3.2.1 | 3.2.0 | 1.0.2 || GitHub || 
  • ByT5-base Transformer-líkan fyrir flokkun íslenskra setninga 22.09
  • Fjölmerkja villuflokkar (flokkar íslensku villumálheildarinnar) fyrir setningar 22.01
  • Villuflokkari (flokkar íslensku villumálheildarinnar) fyrir tóka 22.05
Hugbúnaður / vefsíður
  • Alexia - orðtökutól fyrir íslensku 3.0 | 2.0 | 1.0 || GitHub
  • Skiptir (orðskiptingatól) 20.10 || GitHub
  • Annotald 1.0.0
  • GreynirSeq - málvinnsluhugbúnaður fyrir íslensku 0.2.0
  • Leiðréttingarforrit fyrir ljóslesin (OCR) texta á íslensku 22.10 || GitHub
  • AnySoftKeyboard (lyklaborð fyrir Android) með nýrri, íslenskri ritspá 22.10 || GitHub
  • IceEval - Viðmið fyrir mat og samanburð á íslenskum mállíkönum 22.09

Önnur gögn

Hér að neðan eru tilgreind önnur gögn sem eru leitarbær eða hægt er að sækja annars staðar en á varðveislusvæði CLARIN-IS.