Gögn

Á varðveislusvæði CLARIN er að finna bæði gagnagsöfn, líkön og hugbúnað. Að mestu eru þetta afurðir máltækniáætlunar en einnig ýmis önnur gögn sem stofnanir og einkaaðilar hafa sent inn. Á www.clarin.is/gogn er megnið af því sem er að finna á varðveislusvæðinu listað á skipulagðan hátt sem gefur góða yfirsýn yfir innihald varðveislusvæðisins.

Fréttir

10. febrúar 2025

Risamálheildin hefur nú verið stækkuð með því að bæta við hana gögnum frá árunum 2022 og 2023. Þessi viðbótargögn má sækja á varðveislusvæði CLARIN en einnig eru hægt að leita í þeim á málheildarvef Árnastofnunar. Auk þess hefur málheildarvefurinn verið uppfærður og ýmsir smávægilegir gallar lagaðir.

Fyrsta útgáfa Risamálheildarinnar kom út árið 2018 og litu nýjar útgáfur dagsins ljós á hverju ári fyrstu fimm árin. Í hvert sinn var nýjum gögnum bætt við um leið og mörkunaraðferðir voru bættar. Fyrsta útgáfan innihélt um 1.259 milljónir lesmálsorða en sú frá árinu 2022 um 2.439 milljónir lesmálsorða. Ekki þótti ástæða til að gefa málheildina út í heild sinni að þessu sinni enda hafa mörkunaraðferðir og vinnsla texta ekki breyst síðan síðasta útgáfa kom úr. Því var sú leið farin að gefa út viðbót með gögnum áranna 2022 og 2023. Á málheildarvefnum gefst fólki kostur á að leita í nýrri útgáfu Risamálheildarinnar þar sem nýju gögnunum hefur verið bætt við útgáfuna frá 2022.

9. október 2024

Málvinnsluvefurinn er kominn upp aftur, nýr og betrumbættur. Á honum er hægt að nýta eftfarandi tól, bæði með því að líma inn texta inn í þar til gert form og með því að notast við forritaskil:

  • Tókari - Tokenizer frá Miðeind ehf
  • Markari - POS frá Cadia-LVL við Háskólann í Reykjavík
  • Lemmari - Nefnir eftir Jón Friðrik Daðason
  • Orðskiptingartól - Skiptir frá Stofnun Árna Magnússonar

Fréttasafn >>>