CLARIN-IS varðveislusafn

Varðveislusvæði CLARIN-IS (repository.clarin.is) inniheldur fjölda gagna, bæði hugbúnað til málvinnslu, málleg gagnasöfn og mállýsingar af ýmsum toga. Allar afurðir Máltækniáætlunar fóru til að mynda þangað inn og flest þau gögn sem finna mátti á www.malfong.is einnig. Hægt er að leita á varðveislusvæðinu en til að einfalda yfirsýn og leit eru helstu gögn birt hér.

[opna allt] [loka öllu]

Málheildir

Trjábanki er textasafn sem er þáttað og hefur upplýsingar um setningargerðir og setningarliði. Íslensku trjábankarnir eru greindur samkvæmt þáttunarskema sögulegu ensku Penn-trjábankanna (Penn Parsed Corpora of Historical English; PPCHE) en sumt hefur þó verið aðlagað að íslenskri setningargerð. Bæði Sögulegi íslenski trjábankinn og Sögulegi færeyski trjábankinn voru handleiðréttir en Samtímalegi íslenski trjábankinn og Taugavélþáttaði IcePaHC-trjábankinn voru hins vegar vélþáttaðir með íslensku taugaþáttunarpípunni IceNeuralParsingPipeline. GreynirCorpus inniheldur 10 milljónir málsgreina, að mestu úr fréttatextum frá 2015- 2021, og var markaður með Greyni frá Miðeind og nýtir sambærilegt mörkunarskema og fyrrnefndu trjábankarnir. Hluti hans, gullstaðallinn, hefur verið handleiðréttur. Þeim hluta var varpað yfir í venslatrébankann UD GreynirCorpus með tólinu UDConverter. Nánar má lesa um venslatrébanka á https://universaldependencies.org.

Markaðar málheildir geta verið af ýmsu tagi. Oft er um að ræða að textasafn hefur verið tilreitt (skipt upp í setningar og tóka), markað málfræðilega (hver tóki er markaður með textastreng sem segir til um t.d. orðflokk, kyn, fall o.s.frv.) og lemmað (uppflettimynd orðs fundin, t.d. hestur fyrir hests). Þetta á við um Risamálheildina, Mörkuðu íslensku málheildina, Orðtíðnibókina, Fornritin og Málheild fyrir íslenskan námsorðaforða. Orðtíðnibókin (OTB) er elst en hún var gefin út árið 1991 og inniheldur rúma hálfa milljón lesmálsorða sem sótt voru í brot úr 100 textum frá 1980 til 1989. Mörkuð íslensk málheild (MÍM) er mun stærri, inniheldur um 25 milljónir orða af fjölbreyttum textum frá tímabilinu 2000 - 2010. Risamálheldin (RMH) er bæði nýjust og stærst þessara málheilda og er gefin út með reglulegu millibili með nýjum textum. Ólíkt OTB og MÍM þá er RMH ekki “í jafnvægi”, þ.e. ekki hefur verið lögð áhersla á að velja álíka mikið af textum af mismunandi textategundum, heldur ert allt það efni sem tiltækt er sótt. Fyrir vikið er miklu mun meira af t.d. fréttatextum og textum úr opinberum skjölum heldur en t.d. bókmentum eða fræðilegum tímaritum. RMH er alltaf gefin út á TEI-sniði, bæði mörkuð og ómörkuð, en frá og með útgáfu 2022 er ómarkaða útgáfan einnig gefin út á JSONL-sniði sem er þægilegt þegar stór mállíkön eru þjálfuð. Fornritin innihalda markaða texta Íslendingasagna, Sturlungu, Heimskringlu og Landnámabókar. Málheild fyrir íslenskan námsorðaforða (MÍNO) var búin til með því að velja valda texta úr bæði MÍM og RMH, með það fyrir augum að hægt væri að vinna upp úr henni orðtíðnilista yfir íslenskan námsorðaforða.

Úr MÍM hafa verið búnir til gullstaðlar fyrir bæði málfræðimörkun (MÍM-GULL), nafnakennsl (MÍM-GUll_NER) og nafnaeinræðingu (MÍM-GULL-EL), en gullstaðla má nota til að þjálfa og prófa ýmis tól. Til að framkvæma próf á tóli þarf að skipta gullstaðlinum upp í þjálfunar- og prófunarstett, eins og gert hefur verið fyrir MÍM-GULL. Einnig voru unnin þjálfunar- og prófunarsett upp úr RMH og OTB sem nota má til að þjálfa t.d. málfræðimarkara eða lemmald.

Málheildir
Gullstaðlar og prófunarsett

Villumálheild er málheild þar sem villur hafa verið merktar, t.d. hvað varðar stafsetningu, málfræði og fleira. Villumálheildir gagnast meðal annars til að þróa og þjálfa málrýni. Íslenska villumálheildin (IceEC), Villumálheild íslensk barnamáls (IceCLEC), Villumálheild íslensku sem annars máls (IceL2EC) og Íslenska lesblinduvillumálheildin (IdeDEC) voru allar unnar við Háskóla Ísland og eru unnar á samskonar hátt, með sömu villukóðum. Óorð íslensku villumálheildarinnar og Listi af handleiðréttum atriðum í lokaritgerðum eru listar yfir villuorð í textum ásamt leiðréttingu. Gagnagrunnur íslenskra bannorða inniheldur lista af íslenskum orðum sem gætu talist óviðeigandi og/eða verið gildishlaðin á einhvern hátt.

Málheildir
  • Íslenska villumálheildin (IceEC) 1.1 | 1.0 | 0.9
  • Villumálheild íslensks barnamáls (IceCLEC) 1.1 | 1.0
  • Villumálheild íslensku sem annars máls (IceL2EC) 1.3 | 1.2 | 1.1 | 1.0
  • Íslenska lesblinduvillumálheildin (IceDEC) 1.2 | 1.1 | 1.0
Listar
  • Gagnagrunnur íslenskra bannorða (iceTaboo) 1.0
  • Óorð íslensku villumálheildarinnar 20.09
  • Íslenskar leitarfyrirspurnarvillur (IceSQuEr) 0.1
  • Listi af handleiðréttum atriðum í lokaritgerðum 22.10

Samhliða málheild er safn texta á að minnsta kosti tveimur tungumálum sem hafa verið samræmdir að minnsta kosti á setningastigi, þannig að setning á einu tungumáli kallast á við setningu á öðru tungumáli. Svo til allar málheildir og listar snúa að ensku og íslensku, en ein færsla inniheldur þýðingargögn fyrir pólsku og íslensku. ParIce er ensk-íslensk samhliða málheild sem er ætluð fyrir þjálfun á vélþýðingabúnaði. Hún samanstendur af ýmsum undirmálheildum og inniheldur rúmlega 3,5 milljón samlhiða setningapör. Aðrar málheildir sem listaðar eru hér eru svokallaðar gervimálheildir sem oft nýtast vel þegar ekki er til nægilegt magn af samhliða textum. Við gerð Samhliða gervimálheildarinnar var notast við bakþýðingar en þá er þýðingarvél (t.d. ísl.-ens.) notuð til að þýða texta og er þýðingin svo notuð sem þjálfunargögn fyrir líkan sem þýðir til baka í fyrra málið (ens.-ísl.). Við gerð Tilbúnu samhliða málheildarinnar (íslenska-enska) með innskotsorðaforða var hins vegar þeirri aðferð beitt að skipta út orðum í samhliða málheild fyrir önnur orð sem eru sjaldgæfari. En-Is Synthetic Parallel Named Entity Robustness Corpus og En-Is Semi-Synthetic Parallel Name Robustness Corpus eru gervimálheildir þar sem áhersla er á að auðga magn ýmissa sérnafna sem notuð eru við þjálfun með því að skeyta þeim inn í textana.

Samhliðuð þjálfunargögn má nota til að þjálfa og prófa líkön ætluð til að þýða á milli tveggja tungumála. ParIce: Þjálfunar- og prófunargögn eru valdir textar úr ParIce-málheildinni þar sem samhliðun texta hefur verið handleiðrétt og má nota til að þjálfa tól sem þýðir milli ensku og íslensku. Íslensk-ensk þjálfunargögn fyrir samröðun setninga eru hins vegar ætluð til að prófa sjálfvirkar samröðunaraðferðir. Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering er af svipuðu meiði en um er að ræða þjáfunarsett fyrir flokkara sem velur góðar samhliða setningar frá lakara setningum. Icelandic-English Parallel Sentence Extraction Dataset má nota til að prófa nákvæmni aðferða við að veiða samhliða setningapör úr sambærilegum málheildum. En-Is Parallel Named Entity Robustness Corpus - Test data inniheldur prófunargögn til að meta þýðingar á nafnatókum (t.d. manna- og staðarnöfnum) á milli íslensku og ensku.

Til að tryggja að nöfn borga og landa séu þýdd rétt, og réttar forsetningar séu notaðar með heitum þeirra á íslensku, þá má notast við listana í cities_is2en (heiti borga), countries_is2iso (heiti landa), isprep4cc (forsetningar á undan heitum ríkja) og isprep4isloc (forsetningar á undan bæja- og staðarheitum).

Málheildir (íslenska og enska)
  • ParIce: Ensk-íslensk hliðstæð málheild 21.10 | 19.10
  • Tilbúin samhliða málheild (íslenska-enska) með innskotsorðaforða 1.0
  • Samhliða gervimálheild (EN-IS) 21.07 | 20.09
  • Long Context Synthetic Translation Pairs for English and Icelandic 22.09
  • En-Is Synthetic Parallel Named Entity Robustness Corpus 1.0
  • En-Is Semi-Synthetic Parallel Name Robustness Corpus 1.0
Málheildir (íslenska og pólska)
  • Þýðingargögn fyrir pólsku og íslensku 24.09
Þjálfunargögn
  • ParIce: Þjálfunar- og prófunargögn 21.10 | 20.05
  • Íslensk-ensk þjálfunargögn fyrir samröðun setninga 21.10
  • Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering sækja
  • Icelandic-English Parallel Sentence Extraction Dataset 21.10
  • En-Is Parallel Named Entity Robustness Corpus - Test data 1.0
Listar

Málheildirnar innihalda allar hljóð og texta og má nota til að þróa máltæknilausnir á sviði talgervla og talgreina. Samrómur er afrakstur lýðvistunar og inniheldur því fjölda mismunandi radda. Talrómi tilheyra þrjú mismunandi gagnasöfn sem inniheldur um stuttar upptökur frá mismunandi röddum. Spjallrómur er samræðumálheild og inniheldur 54 samtöl og 102 viðmælendur. Kennslurómur er safn af hljóðskrám og samsvarandi textum úr kennslufyrirlestrum sem teknir voru upp í áföngum í Háskólanum í Reykjavík og Háskóla Íslands. Raddrómur samanstendur af hljóðbútum úr útvarps- og hlaðvarpsþáttum (einkum af RÚV). Gagnasöfnin RÚV TV og RÚV TV óþekktir málhafar innihalda hljóð og texta úr sjónvarpsefni frá RÚV. Ofangreindar málheildir eru allar afurðir máltækniáætlunar stjórnvalda. Aðrar málheildir eru eldri.

Gögn til skilningsprófana voru notuð til þess að mæla áhrif stafsetningarvillna á skilning á talgervilslestri.

Málheildir
  • Talrómur 1 24.04 21.02
  • Talrómur 2 22.10 21.12
  • Talrómur 3 24.09
  • Samrómur 21.05
  • Samrómur - fyrirspurnir 21.12
  • Samrómur - börn 21.09
  • Samrómur - L2 22.09
  • Samrómur - hermun 22.09
  • Samromur - óstaðfest 22.07
  • Spjallrómur - Icelandic Conversational Speech 22.01
  • Kennslurómur - Icelandic Lectures 22.01
  • Raddrómur - íslensk talgögn 22.09
  • RÚV TV data 20.12
  • RUV TV unknown speakers 22.02
  • Hjal málheildin sækja
  • Málrómur sækja
  • Alþingisumræður sækja
  • Alþingisgögnin (til talgreiningar) sækja
  • Jensson málheildin sækja
  • Þór málheildin sækja
  • Rúv málheildin sækja
  • Ravnursson - upptökur og hljóritanir á færeysku sækja
Prófunargögn
  • Gögn til skilningsprófana 22.01
  • Íslensk viðmiðunargögn: réttritun á íslensku 24.09
  • Íslensk viðmiðunargögn: málnotkun 24.09
  • Íslensk viðmiðunargögn fyrir stór mállíkön 24.09
  • Spurningarsvörunarmálheild á sviði menningar og sögu 24.10
  • Mörkuð málheild samstafa orða (e. homographs)  24.04
  • Íslenska ruglingsmengjamálheildin (ICoSC) 2.0 | 1.0
  • Málheild fyrir textanormun (Text Normalization Corpus) 21.10
  • NQiI - Natural Questions In Icelandic 1.1 | 1.0
  • Íslenska WinoGrande málheildin 1.0
  • RUQuAD - Málheild með spurningum og svörum (Háskólinn í Reykjavík ) 22.02
  • IceSum - Icelandic Text Summarization Corpus 22.09 | 21.11
  • Íslenskt unglingamál

Orðabækur, orðanet og orðasöfn

Á varðsveislusvæðinu er að finna ýmsar tegundir orðabóka. Gögn veforðabókanna Íslensk nútímamálsorðabók og Islex orðabók eru þar, eins og þau voru á ákveðnum tímapunkti. Beygingarlýsing íslensks nútímamáls er safn beygingardæma sem birt er á vef Árnastofnunar. Fimm mismunandi gagnasöfn BÍN, eins og þau voru á ákveðnum tímapunkti, er hægt að sækja á varðveislusvæðið. Auk þess er hér að finna BinPackage, Python-pakka með stöðluðum forritaskilum til að einfalda og auðvelda notkun á gögnum BÍN fyrir forritara og vísindafólk. Aðrar orðabækur eru til að mynda framburðarorðabækur. Framburðarorðabókin (hluti af Hjal-verkefninu) inniheldur rúmlega 50 þúsund hljóðritaðar orðmyndir. Almenn framburðarorðabók fyrir talgreiningu byggir á Framburðarorðabókinni en inniheldur rúmlega 135 þúsund orðmyndum og má nota til að þróa talgreini. Íslensk framburðarorðabók fyrir máltækni inniheldur handyfirfarnar hljóðritanir í fjórum framburðartilbrigðum íslensku. Orðskiptingar inniheldur orðskiptingalista og orðskiptingamynstur sem sýna hvar í orðum mega vera skil milli lína.

Veforðabækur
  • Íslensk nútímamálsorðabók 2020
  • Islex orðabókin 2022 2013
Beygingarlýsing íslensks nútímamáls
Aðrar orðabækur

Orðanet lýsa merkingarvenslum orða og orðasambanda. IceWordNet er íslensk útgáfa af Princeton Core WordNet þar sem orð eru flokkuð í nokkurs konar samheitamengi sem síðan eru tengd hvert öðru. Íslenskt orðanet byggir á annars konar greiningu á merkingarvenslum íslenskra orða og orðasambanda (sjá vef).

  • Stopporðalisti fyrir Risamálheildina 21.08
  • Orðtíðnilisti Málheildar fyrir íslenskan námsorðaforða (MÍNO) 1.0
  • Listi yfir íslenskan námsorðaforða (LÍNO) 1.0
  • Ensk-íslenskur / íslensk-enskur orðalisti 21.09
  • Orðasambönd á íslensku og ensku 22.09

Mállýsingar

Orðagreyping (e. word embedding) er framsetning orða sem vigra og ættu orð sem notuð eru á svipaðan hátt (drengur, strákur) að fá svipað gildi, sem og sambærileg vensl orða (maður – kóngur, kona – drottning). Á varðveislusvæðinu eru nú þrjár orðagreypingar sem allar eru þjálfaðar á gögnum Risamálheildarinnar.

  • Orðgreypingar – Word2Vec fínstillt fyrir IceBATS 22.04
  • Orðgreypingar – GloVe fínstillt IceBATS 22.04
  • Orðgreypingar - FastText fínstillt fyrir IceBATS 22.04

N-stæða geta verið t.d. tví- eða þrístæða, þ.e. tvö eða þrjú orð eins og þau koma fyrir í setningu. T.d. má ætla að þrístæðan “einu sinni var” komi oft fyrir í íslenskum ævintýrum. N-stæður eru m.a. notaðar til að spá fyrir um næsta orð í setningu. Icegrams er Python 3 pakki sem inniheldur stórt safn þrístæða fyrir íslensku.

  • IceBATS - The Icelandic Bigger Analogy Test Set 21.06
  • Icelandic Pronunciation 20.10
  • Mynstur og setningar sækja

Hugbúnaður og líkön

Tilreiðarinn Tokenizer les inn texta skiptir honum upp í setningar og tóka (orða og greinarmerki).

Málfræðilegu markararnir ABL-tagger og CombiTagger lesa inn texta og marka hvern tóka með textatreng sem segir til um orðflokk og t.d. fall, kyn og tíð, eftir því sem við á. ABL-tagger er sá markari sem mest er notaður og gefur bestu niðurstöðurnar við mörkun íslenskra texta. Nafnakennsl fela í sér að texti er lesinn inn og ýmis orð eins og mannanöfn, staðarheiti og heiti fyrirtækja eru mörkuð sérstaklega. Á varðveislusvæðinu eru tvær hirslur sem hafa að geyma líkön fyrir nafnakennsl (Icelandic NER API - Ensamble model og Icelandic NER API - ELECTRA-base model).

Lemmaldið ABL-lemmatizer les inn markaðan texta og lemmar hann, þ.e. skráir uppflettimynd (lemmu) við hvert orð (t.d. hestur fyrir hests).

Þáttarar lesa inn texta og greina setningabyggingu hans eftir einhverri fyrirfram skilgreindri setningafræði. IceParser er reglubundinn grunnþáttari (e. shallow parser) og er betrumbætt útgáfa að hlutaþáttar IceNLP-pakkans sem þróaður var á árunum 2004 - 2007. Greynir er reglubundinn fullþáttari byggður á samhengisfrjálsri málfræði. Tauganetsþáttari Miðeindar er afbrigði af Berkeley tauganetsþáttaranum. Íslenska taugaþáttunarpípan er þáttunarpípa sem inniheldur öll skref sem eru nauðsynleg til að þátta hreinan íslenskan texta, þ.e. skref fyrir forvinnslu, þáttun og eftirvinnslu texta. Hún var þjálfuð á IcePaHC-trjábankanum.

Biaffine-based UD Parser og UD-þáttari byggður á COMBO eru venslaþáttarar (e. UD-parsers). UD-varpari og UDConverter eru ekki eiginlegir þáttara heldur taka þeir gögn sem hafa verið þáttuð á annað form og varpa yfir á venslamálfræðiform (e. UD structure).

Tilreiðarar
Markarar
  • ABL-tagger 3.0 | 2.0 | 1.0
  • CombiTagger 1.0
  • Icelandic NER API - Ensamble model 21.09
  • Icelandic NER API - ELECTRA-base model 21.05
Lemmöld
Þáttarar
  • IceParser 1.5.0
  • IceNLP Natural Language Processing toolkit 1.0
  • GreynirPackage 3.5.2 | 3.5.1 | 3.1.0 | 2.6.1
  • Tauganetsþáttari Miðeindar 1.0
  • Íslensk taugaþáttunarpípa (IceNeuralParsingPipeline) 20.04
  • UD-þáttari byggður á COMBO 22.10
  • Biaffine-based UD Parser 22.10
  • UD-varpari 22.01
  • UDConverter - UD-varpari fyrir GreynirCorpus 22.06

Nokkur þýðingarlíkön er að finna á varðveislusvæðinu sem þýða milli íslensku og ensku og eitt sem þýðir milli íslensku og pólsku. Víðsamhengislíkan fyrir þýðingar milli ensku og íslensku er nýjasta líkanið og það sem best hefur reynst við þýðingar milli ensku og íslensku. Bestað víðsamhengislíkan fyrir þýðingar milli ensku og íslensku er léttara og hraðvirkara líkan byggt á því. GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku inniheldur almenn þýðingarlíkön sem eru byggð á margmála BART-líkani.

MT: Moses-SMT er kerfi til þess að þróa og keyra tölfræðilegar vélþýðingar. GreynirT2T er forritasafn til að þjálfa þýðingarlíkön sem þýða milli íslensku og ensku en GreynirT2T Serving inniheldur forrit og líkön til að keyra GreynirT2T Transformer vélþýðingarlíkön. GreynirSeq Domain Translation Pipeline er hugbúnaður sem sækir íslenskt-enskt þýðingarlíkan og getur aðlagað það fyrir þjálfun á samhliða gögnum sem eru merkt eftir óðali (e. domain).

Þýðingarlíkön
  • Víðsamhengislíkan fyrir þýðingar milli ensku og íslensku 22.09
  • Bestað víðsamhengislíkan fyrir þýðingar milli ensku og íslensku 22.09
  • GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku 1.0
  • GreynirTranslate - mBART25 NMT (með lagamissi) þýðingarlíkön fyrir íslensku og ensku 1.0
  • Íslenskt-pólskt þýðingarlíkan (tvíátta) 22.09
Stuðningstól
  • MT: Moses-SMT 1.0
  • GreynirSeq Domain Translation Pipeline 22.06
  • GreynirT2T - En--Is NMT með Tensor2Tensor 1.0
  • GreynirT2T Serving - En--Is NMT Inference and Pre-trained Models 1.0

Talgreining er það kallað þegar töluðu máli er breytt í texta. Nokkrar forskriftir er að finna á varðveislusvæðinu sem þróaðar voru fyrir hugbúnaðinn Kaldi eða önnur umhverfi til að búa til talgreina. Forskriftirnar sýna mismunandi leiðir til að þjálfa talgreina.

Greinarmerkingarlíkanið er Python-pakki sem greinarmerkjasetur íslenskan texta og nýtist því vel á texta sem kemur út úr talgreiningu. Íslenskt 6-stæðu mállíkan fyrir NeMo er n-stæðu mállíkan byggt á orðum á bitasniði til að nota með talgreinum sem eru búnir til í NVIDIA-NeMo-umhverfinu. Heyra er Android forrit fyrir talgreiningu.

Sýnisforskriftir
  • Samrómur-börn - sýnisforskriftir fyrir Kalda 22.01
  • Samrómur-unglingar - sýnisforskriftir fyrir Kalda 22.06
  • Samrómur-L2 - sýnisforskriftir fyrir Kalda 22.10
  • RÚV-DI Speaker Diarization (Kaldi) 21.10 | 20.09
  • RÚV-DI Speaker Diarization v5 líkön (Kaldi) 21.05
  • Raddskipanir og fyrirspurnir (forskriftir fyrir Kalda) 22.10
  • Samrómur-NeMo sýnisforskriftir fyrir NVIDIA-NeMo 22.06
  • Samrómur-DeepSpeech sýnisforskriftir fyrir Mozilla DeepSpeech 22.06
Annað
  • Greinarmerkingarlíkan 20.09
  • Íslenskt 6-stæðu mállíkan fyrir NeMo (Binary útgáfa) 22.06
  • DeepSpeech matsgjafi fyrir íslensku 22.06
  • Íslensk mállíkön með framburðarorðabók 22.01
  • Heyra 1.0
  • Tiro: Vefgátt fyrir talgreiningu 1.0

Talgerving felur í sér að texta er breytt í tal. Nokkur líkön hafa verið þjálfuð á gögnum Talróms. WebRICE er veflesari þróaður við Háskólann í Reykjavík. Webrice-viðbótin er viðbót (e. add-on) fyrir Chrome ætluð almennum notendum en WebRice - Veflesari er ætlaður þeim sem vilja bæta veflesara við vefi sína.

TTS Textavinnsla inniheldur textavinnslupípu fyrir íslenska talgervla. TTS Skjalalesari inniheldur vefviðmót sem les inn texta og skilar hljóðskrá. ED-tól fyrir einkenni hljóðvistar með mælendaupplýsingum er tól til að merkja hver mælandi er í samræðum.

Líkön
  • Multi-speaker GlowTTS líkan fyrir Talrómur 2 (forútgáfa) 22.10
  • GlowTTS líkan fyrir Talrómur 1 22.10
  • Talrómur: TTS-líkan 22.10
Veflesari
Annað
  • Tiro: TTS vefþjónusta 22.10 | 22.06 | 1.0
  • FED-tól fyrir einkenni hljóðvistar með mælendaupplýsingum 20.09
  • MOSI: hugbúnaður til að meta gæði talgervingar 22.01
  • TTS Textavinnsla 22.10
  • TTS Skjalalesari 22.10
  • Íslenskur talgervill fyrir Android 22.10

MAFIA má nota til að búa til talgreiningargögn á sjálfvirkan hátt úr upptökum og handriti með því að para saman hljóð og texta. Tækjasafn fyrir talmálsheildir er safn af tólum til að vinna hljóð og handrit yfir á staðlað form sem gerir þau tilbúin fyrir niðurbútun og samröðun.

  • Íslenskur samstöfuflokkari (Icelandic Homograph Classifier) 24.04
  • MAFIA (Match-Finder Aligner): Tal/texta-samhliðunartól 22.06
  • Tækjasafn fyrir talmálsheildir 22.06

Á varðveislusvæðinu eru þrjár hirslur sem innihalda tól sem nota má til að hljóðrita íslenskan texta. Reglubyggða hljóðritunarforritið byggir á handunnum reglum á meðan Hljóðritunarforrit fyrir íslensku byggir á líkönum. Pakkinn Hljóðritunarlíkön fyrir íslensku inniheldur líkön sem þjálfuð voru á LSTM tauganeti og skrifta sem nýtir líkönin.

Bæði g2p-þjónustan og Vefviðmót til þess að vinna með framburðarorðabækur eru tól (vefviðmót) sem nýtast við gerð framburðarorðabókar.

Hljóðritunarforrit og -líkön
  • Reglubundið hljóðritunarforrit (g2p) fyrir íslensku 20.10
  • Hljóðritunarforrit (g2p) fyrir íslensku 22.10
  • Hljóðritunarlíkön fyrir íslensku - þjálfuð á LSTM tauganeti 20.10
Vefviðmót fyrir gerð framburðarorðabóka
  • g2p-þjónusta 20.11
  • Vefviðmót til þess að vinna með framburðarorðabækur. 20.10

Málrýni felur í sér að texti er annaðhvort leiðréttur eða villur hans merktar. Nokkur líkön eru á varðveislusvæðinu sem ýmist leiðrétta eða flokka setningar og orð eftir villum. Leiðréttingarlíkan fyrir íslensku er þýðingalíkan sem í raun þýðir íslenskan texta með villum yfir í texta án villna. GreynirCorrect er Python 3 pakki og skipanalínutól sem bendir á og leiðréttir ýmsar tegundir stafsetningar- og málvillna. ByT5-base Transformer-líkan fyrir flokkun íslenskra setninga flokkar setningar eftir því hvort líklegt sé að þær innihaldi villur eða ekki. Fjölmerkja villuflokkari fyrir setningar greinir hvort setning innihaldi ákveðna villutegund (t.d. stafsetningar- eða málfræðivillu) en Villuflokkari fyrir tóka greinir á sambærilegan hátt hvort orð innihaldi ákveðna villutegund.

Auk líkana er að finna hugbúnað og vefsíður sem snúa að málrýni. Yfirlestur inniheldur kóða fyrir vefsíðu sem býður upp á málrýni. Málrýnivirknin styðst við GreynirCorrect. Yfirlestur Docs og Yfirlestur Word innihalda bakendakóða viðbótar (e. add-on) fyrir Google Docs og Mircosoft Word. Hunspell-is er hugbúnaður sem les inn gagnabanka íslensku Wikiorðabókarinnar og útbýr orðabók fyrir villuleitarforritið Hunspell sem hægt er að nota m.a. með LibreOffice, Firefox, Thunderbird og Google Chrome.

Líkön
  • Íslenskt GTP-SW3 líkan fyrir stafsetningar- og málfræðirýni 04.24
  • Leiðréttingarlíkan fyrir íslensku (fínþjálfað byT5-base Transformer-líkan) - Yfirlestur 22.09
  • GreynirCorrect 3.4.5 | 3.4.4 | 3.2.1 | 3.2.0 | 1.0.2
  • ByT5-base Transformer-líkan fyrir flokkun íslenskra setninga 22.09
  • Fjölmerkja villuflokkar (flokkar íslensku villumálheildarinnar) fyrir setningar 22.01
  • Villuflokkari (flokkar íslensku villumálheildarinnar) fyrir tóka 22.05
Hugbúnaður / vefsíður
  • Yfirlestur Docs 22.10
  • Yfirlestur Word 22.10
  • Villurýnir fyrir Android 22.10
  • Yfirlestur 1.0.1 | 1.0.0
  • Hunspell-IS. Villuleit, málfræðigreining og samheitaorðabók fyrir íslensku. sækja
  • Alexia - orðtökutól fyrir íslensku 3.0 | 2.0 | 1.0
  • Skiptir 20.10
  • Annotald 1.0.0
  • GreynirSeq - málvinnsluhugbúnaður fyrir íslensku 0.2.0
  • Leiðréttingarforrit fyrir ljóslesin (OCR) texta á íslensku 22.10
  • AnySoftKeyboard (lyklaborð fyrir Android) með nýrri, íslenskri ritspá 22.10
  • IceEval - Viðmið fyrir mat og samanburð á íslenskum mállíkönum 22.09

Önnur gögn

Hér að neðan eru tilgreind önnur gögn sem eru leitarbær eða hægt er að sækja annars staðar en á varðveislusvæði CLARIN-IS.