Gögn

Á varðveislusvæði CLARIN er að finna bæði gagnagsöfn, líkön og hugbúnað. Að mestu eru þetta afurðir máltækniáætlunar en einnig ýmis önnur gögn sem stofnanir og einkaaðilar hafa sent inn. Á vefsíðu Íslenska málbankans (þjónustumiðstövar CLARIN) er megnið af því sem er að finna á varðveislusvæðinu listað á skipulagðan hátt sem gefur góða yfirsýn yfir innihald varðveislusvæðisins.

Fréttir

4. september 2025

Þjónustumiðstöð CLARIN á Íslandi, sem Árnastofnun hýsir, hefur breytt um nafn og kallast nú Íslenski málbankinn. Af því tilefni var í dag opnaður nýr vefur, malbankinn.is, þar sem málgögnum fyrir íslensku er miðlað á öruggan og aðgengilegan hátt. Allir geta sótt gögn í bankann en helstu markhópar eru fræðimenn og stúdentar í hug- og félagsvísindum sem rannsaka íslenskt mál og samfélag og forritarar sem vilja geta nálgast gagnasöfn, líkön og verkfæri sem tengjast máltækni. Gögnin eru sem fyrr hýst á varðveislusvæði CLARIN.

10. febrúar 2025

Risamálheildin hefur nú verið stækkuð með því að bæta við hana gögnum frá árunum 2022 og 2023. Þessi viðbótargögn má sækja á varðveislusvæði CLARIN en einnig eru hægt að leita í þeim á málheildarvef Árnastofnunar. Auk þess hefur málheildarvefurinn verið uppfærður og ýmsir smávægilegir gallar lagaðir.

Fyrsta útgáfa Risamálheildarinnar kom út árið 2018 og litu nýjar útgáfur dagsins ljós á hverju ári fyrstu fimm árin. Í hvert sinn var nýjum gögnum bætt við um leið og mörkunaraðferðir voru bættar. Fyrsta útgáfan innihélt um 1.259 milljónir lesmálsorða en sú frá árinu 2022 um 2.439 milljónir lesmálsorða. Ekki þótti ástæða til að gefa málheildina út í heild sinni að þessu sinni enda hafa mörkunaraðferðir og vinnsla texta ekki breyst síðan síðasta útgáfa kom úr. Því var sú leið farin að gefa út viðbót með gögnum áranna 2022 og 2023 en hún inniheldur um 162 milljónir orða. Á málheildarvefnum gefst fólki kostur á að leita í nýrri útgáfu Risamálheildarinnar þar sem nýju gögnunum hefur verið bætt við útgáfuna frá 2022.

9. október 2024

Málvinnsluvefurinn er kominn upp aftur, nýr og betrumbættur. Á honum er hægt að nýta eftfarandi tól, bæði með því að líma inn texta inn í þar til gert form og með því að notast við forritaskil:

  • Tókari - Tokenizer frá Miðeind ehf
  • Markari - POS frá Cadia-LVL við Háskólann í Reykjavík
  • Lemmari - Nefnir eftir Jón Friðrik Daðason
  • Orðskiptingartól - Skiptir frá Stofnun Árna Magnússonar

Fréttasafn >>>