Alþingisgögnin

Alþingisgögnin eru samröðuð tal- og textagögn, unnin upp úr ræðum á Alþingi.

  • Sækja Alþingisgögnin hér

Um Alþingisgögnin

Gögnin samanstanda af 6493 Alþingisræðum, frá 196 ræðumönnum. Þau eru samröðuð og skipt niður í hæfilega stórar einingar fyrir þjálfun. Meðallengd hverrar einingar er 9,8 s. Skrá sem kallast segments tengir hvern textabút við réttan stað í hljóðskránum. Heildarlengd hljóðgagnanna er 542 klst. og 25 min og textinn inniheldur tæplega 4,6 milljónir orða.

Gagnasafninu er skipt upp í þjálfunarsett og tvö prófunarsett “dev” og “eval”. Þjálfunarsettið er 514,5 klst. að lengd og inniheldur gögn frá 2005-2015. Ræðubútunum frá 2016 var skipt jafnt upp á milli prófunarsafnanna, með 14 klst. í hvoru. “eval” safnið er hreinna en “dev” safnið og bæði eru þau hreinni en þjálfunargögnin.

Framburðarorðabókin er endurbætt útgáfa af framburðarorðabók Hjal verkefnisins (E. Rögnvaldsson, 2003), sem er aðgengileg hér á Málföngum, auk þess sem algengum orðum úr Alþingisræðum frá 2003-2015 og frá Málróms gagnasafninu (J. Guðnason et al., 2012) er bætt við. Hún inniheldur um 181 þús. orð. Framburðarlýsing nýju orðanna fékkst með Sequitur G2P líkani (M. Bisani et al., 2008), sem þjálfað hafði verið á framburðarorðabók Hjal verkefnisins auk Málrómsgagnanna.

Alþingistextar frá árunum 2003-2015 voru notaðir til að gera mállíkönin. Annað þeirra er lítið 3-gram líkan, notað í afkóðun. Hitt er stórt 5-gram líkan, í “constant-arpa formati”, notað til að leiðrétta upphaflegu afkóðunina.

Þessi gögn, framburðarorðabók og mállíkön voru notuð til að þjálfa talgreini með 10.23% villutíðni orða. Notast var við hljóðlíkan sem byggði á samblandi af djúptauganetum með tímaseinkun (e. time-delay deep neural networks, TD-DNN) og djúptauganetum með lang-skammtímaminni (e. long short term memory DNN, LSTM-DNN). Notast var við Switchboard uppskriftina í Kalda tólinu (D. Povey et al., 2011) (https://github.com/kaldi-asr/kaldi/tree/master/egs/swbd) við þjálfun hljóðlíkansins. Alþingis uppskriftin mun fljótlega vera gerð aðgengileg almenningi.


1Þegar birtar eru niðurstöður sem eru fengnar með því að nota gögnin vinsamlegast vitnið í:

Inga Rún Helgadóttir, Róbert Kjaran, Anna Björk Nikulásdóttir og Jón Guðnason, 2017. Building an ASR corpus using Althingi’s Parliamentary Speeches. Proceedings of Interspeech 2017.

Nánari útlistun á gagnasafninu og gerð þess má sjá í greininni.

Hafið samband

Steinþór Steingrímsson
Verkefnisstjóri
Stofnun Árna Magnússonar í íslenskum fræðum
Netfang: steinthor.steingrimsson [hja] arnastofnun.is


Heimildir

Eiríkur Rögnvaldsson, “The Icelandic speech recognition project Hjal,” Nordisk Sprogteknologi. Årbog, pp. 239–242, 2003.

Jón Guðnason, Oddur Kjartansson, Jökull Jóhannsson, Elín Carstensdóttir, Hannes Högni Vilhjálmsson, Hrafn Loftsson, Sigrún Helgadóttir, Kristín M. Jóhannsdóttir og Eiríkur Rögnvaldsson. 2012. Almannarómur: An Open Icelandic Speech Corpus. Proceedings of SLTU ’12, 3rd Workshop on Spoken Languages Technologies for Under-Resourced Languages, Cape Town, Suður-Afríku.

M. Bisani and H. Ney. "Joint-Sequence Models for Grapheme-to-Phoneme Conversion". Speech Communication, Volume 50, Issue 5, May 2008, Pages 434-451

D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz et al., “The Kaldi speech recognition toolkit,” in IEEE 2011 workshop on automatic speech recognition and understanding, no. EPFL-CONF-192584. IEEE Signal Processing Society, 2011.