CLARIN-IS varðveislusafn

Varðveislusvæði CLARIN-IS (repository.clarin.is) inniheldur fjölda gagna, bæði hugbúnað til málvinnslu, málleg gagnasöfn og mállýsingar af ýmsum toga. Allar afurðir Máltækniáætlunar fóru til að mynda þangað inn og flest þau gögn sem finna mátti á www.malfong.is einnig. Hægt er að leita á varðveislusvæðinu en til að einfalda yfirsýn og leit eru helstu gögn birt hér.

Málheildir

Trjábankar

  • Samtímalegi íslenski trjábankinn (IceConTree) 1.1 | 1.0
  • Sögulegi íslenski trjábankinn (IcePaHC) 0.9 
  • Sögulegi færeyski trjábankinn 1.0
  • NeuralMIcePaHC 20.05 | 20.04
  • GreynirCorpus 21.06 | 20.05 | 20.05

Markaðar einmálamálheildir

Villumálheildir

  • Íslenska villumálheildin (IceEC) 1.1 | 1.0 | 0.9
  • Villumálheild íslensks barnamáls (IceCLEC) 1.1 | 1.0
  • Villumálheild íslensku sem annars máls (IceL2EC) 1.2 | 1.1 | 1.0
  • Íslenska lesblinduvillumálheildin (IceDEC) 1.1 | 1.0
  • Gagnagrunnur íslenskra bannorða (iceTaboo) 1.0
  • Óorð íslensku villumálheildarinnar 20.09

Samhliða málheildir

  • ParIce: Ensk-íslensk hliðstæð málheild 21.10 | 19.10 
  • ParIce: Þjálfunar- og prófunargögn 21.10 | 20.05
  • Íslensk-ensk þjálfunargögn fyrir samröðun setninga 21.10
  • Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering sækja
  • Icelandic-English Parallel Sentence Extraction Dataset 21.10
  • En-Is Parallel Named Entity Robustness Corpus - Test data 1.0
  • Tilbúin samhliða málheild (íslenska-enska) með innskotsorðaforða 1.0
  • Samhliða gervimálheild (EN-IS) 21.07 | 20.09
  • En-Is Synthetic Parallel Named Entity Robustness Corpus 1.0
  • En-Is Semi-Synthetic Parallel Name Robustness Corpus 1.0
  • cities_is2en 20.09 | 20.05
  • countries_is2iso 20.09 | 20.05
  • isprep4cc 20.09 | 20.05
  • isprep4isloc 20.09 | 20.05

Raddsýni og upptökur

  • Talrómur 21.02
  • Talrómur 2 21.12
  • Samrómur 21.05
  • Samrómur Queries 21.12
  • Samrómur Children 21.09
  • Spjallrómur - Icelandic Conversational Speech 22.01
  • Kennslurómur - Icelandic Lectures 22.01
  • RÚV TV data 20.12
  • RUV TV unknown speakers 22.02
  • Islex upptökur 1.0 
  • Test Set for TTS Intelligibility Tests 22.01
  • Hjal málheildin sækja 
  • Málrómur sækja 
  • Alþingisumræður sækja   
  • Alþingisgögnin (til talgreiningar) sækja 
  • Jensson málheildin sækja
  • Þór málheildin sækja
  • Rúv málheildin sækja

Aðrar málheildir

  • Íslenska ruglingsmengjamálheildin (ICoSC) 2.0 | 1.0
  • Málheild fyrir textanormun (Text Normalization Corpus) 21.10
  • NQiI - Natural Questions In Icelandic 1.1 | 1.0
  • Íslenska WinoGrande málheildin 1.0

Orðasöfn og orðabækur

Orðabækur og orðanet

Önnur orðasöfn

  • BÍN - skammstafanir 21.10
  • Stopporðalisti fyrir Risamálheildina 21.08
  • Gold Alignments for English-Icelandic Word Alignments 21.04
  • IceBATS - The Icelandic Bigger Analogy Test Set 21.06
  • Icelandic Multi-SimLex 21.06
  • Íslenskar leitarfyrirspurnarvillur (IceSQuEr) 0.1
  • Þýðingar á stofnunum, fyrirtækjum og titum 1.0

Mállýsingar

Beygingarlýsing íslensks nútímamáls

Annað

  • Icegrams 1.1.1 | 20.09
  • Icelandic Pronunciation 20.10
  • Íslensk mállíkön með framburðarorðabók 22.01
  • Framburðarorðabókin sækja 
  • Almenn framburðarorðabók fyrir talgreiningu sækja 
  • Mynstur og setningar sækja 

Hugbúnaður og líkön

Tókarar, pos-markarar, lemmöld og þáttarar

  • ABL-tagger 3.0 | 2.0 | 1.0
  • ABL-lemmatizer 3.1.0
  • CombiTagger 1.0 
  • Tokenizer - tilreiðari fyrir íslenska texta 3.3.3 | 3.3.2 | 2.3.1 | 2.0.3
  • IceParser 1.5.0 
  • IceNLP Natural Language Processing toolkit 1.0   
  • Íslensk taugaþáttunarpípa (IceNeuralParsingPipeline) 20.04
  • Tauganetsþáttari Miðeindar  1.0
  • GreynirPackage 3.5.1 | 3.1.0 | 2.6.1

Nafnaþekkjarar

  • Icelandic NER API - Ensamble model 21.09
  • Icelandic NER API - ELECTRA-base model 21.05

Þýðingarvélar og líkön

  • GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku 1.0
  • GreynirTranslate - mBART25 NMT (með lagamissi) þýðingarlíkön fyrir íslensku og ensku 1.0
  • GreynirT2T - En--Is NMT með Tensor2Tensor 1.0
  • GreynirT2T Serving - En--Is NMT Inference and Pre-trained Models 1.0
  • MT: Moses-SMT 1.0

Talgerving og talgreining

  • RÚV-DI Speaker Diarization 21.10 | 20.09
  • RÚV-DI Speaker Diarization v5 models 21.05
  • Tiro: TTS vefþjónusta 1.0
  • Tiro: Vefgátt fyrir talgreiningu 1.0
  • FED-tól  fyrir einkenni hljóðvistar með mælendaupplýsingum 20.09
  • MOSI: hugbúnaður til að meta gæði hljóðgervingar 22.01
  • Samrómur - sýnisforskriftir fyrir börn  22.01
  • Webrice-viðbótin 22.01
  • Hljóðritunarlíkön fyrir íslensku 20.10
  • Hljóðritunarlíkön fyrir íslensku - þjálfuð á LSTM tauganeti 20.10
  • Vefviðmót til þess að vinna með framburðarorðabækur. 20.10
  • Greinarmerkingarlíkan 20.09

Málrýni

  • Multilabel Error Classifier (Icelandic Error Corpus categories) for Sentences 22.01
  • GreynirCorrect 3.2.1 | 3.2.0 | 1.0.2 | 1.0.0

Annað

  • Alexia - orðtökutól fyrir íslensku 3.0 | 2.0 | 1.0
  • Hunspell-IS. Villuleit, málfræðigreining og samheitaorðabók fyrir íslensku. sækja
  • BinPackage 0.4.2 | 0.3.1
  • Skiptir 20.10
  • UD-varpari 22.01

Önnur gögn

Hér að neðan eru tilgreind önnur gögn sem eru leitarbær eða hægt er að sækja annars staðar en á varðveislusvæði CLARIN-IS.

Orðasöfn og orðabækur

Málheildir - textaskrár