Alþingisumræður er málheild með íslensku talmáli. Í málheildinni eru ræður frá Alþingi Íslendinga, alls rúmir tuttugu klukkutímar af upptökum ásamt umritun þeirra í texta. Hljóð- og textaskrár eru samstilltar.

Um Alþingisumræður

Yfirlit

Í safninu eru upptökur frá umræðutímum á Alþingi veturinn 2004-2005, alls tæplega 21 klukkustund, ásamt nákvæmri umritun þeirra í textaskrám. Auk þess fylgja ýmsar grunnupplýsingar um upptökurnar og þá sem taka til máls, s.s. aldur þeirra og kyn. Efninu er ætlað að endurspegla eðlilegt íslenskt talmál við formlegar aðstæður. Efnisvalið réðist af því að flestar ræður sem fluttar eru í umræðutímum eru að líkindum ekki samdar fyrir fram og síðan lesnar upp. Það miðaði einnig að því að umræðuefni væru fjölbreytt og þátttakendur margir og ólíkir m.t.t. uppruna, aldurs og kyns.

 

Efnisöflun og úrvinnsla

Upptökurnar voru fengnar beint frá Alþingi. Með hljóðskránum fylgdi frumskráning á ræðunum í textaskrám og varð hún grunnur að hinni endanlegu umritun eftir þeim aðferðum sem mótast hafa við umritun á íslensku talmálsefni. Hlustað var aftur á upptökurnar og umritunin endurskoðuð þannig að hún fylgir því sem sagt var eins nákvæmlega og unnt er. Í umritunarskránum er greint skýrt á milli þeirra sem tala hverju sinni og auk þess eru skráðar þagnir, framígrip, skörun (þar sem fleiri en einn talar í einu) og tiltekin umhverfishljóð (hlátur, ræskingar o.þ.h.). Við umritunina er notast við venjulega staðlaða stafsetningu.

Loks voru gögnin flutt í umritunarforritið Transcriber og um leið var farið enn einu sinni yfir umritun textans og hún lagfærð eftir þörfum. Einnig var gengið frá samstillingu hljóð- og textaskráa. Skrárnar sem til urðu við þetta eru svokallaðar .trs-skrár en það eru textaskrár á xml-sniði sem auðveldlega má flytja yfir á annað snið. Þessar xml-skrár, ásamt hjóðskránum, mynda gagnasafnið sem hér er veittur aðgangur að.

Samhliða var gengið frá lýsigögnum þar sem skráðar eru kerfisbundið upplýsingar um upptökurnar (dagsetning, lengd, umræðuefni, fjöldi þátttakenda o.fl.) og málhafana (aldur, kyn, uppruni o.fl.).

Í umritunarskránum eru alls rúmlega 180 þúsund lesmálsorð.

 

Efnislýsing

Efnið er í tólf hlutum og er hljóðritað á tímabilinu október 2004 til maí 2005. Upptökurnar eru mislangar, allt frá nokkrum mínútum upp í fáeinar klukkustundir. Í heild eru þær meira en 20 tímar. Hljóðskrárnar eru á mp3-sniði.

Meðal umfjöllunarefna í umræðutímunum eru fjárlög, skattamál, vatnalög, orkumál, skólamál og samgöngur, auk þess sem finna má fundarstjórn forseta.

Tölulegt yfirlit

Heildarlengd hljóðrita (klst:mín:sek) 20:52:23
Heildarlengd umritunar (fjöldi lesmálsorða) 182.562
Fjöldi efnishluta (hljóðskrá+textaskrá) 12

Gagnasafn

Umritunarskrár úr Alþingisumræðunum ásamt fleira talmálsefni eru opnar til leitar í Íslensku textasafni og mynda einnig hluta af Markaðri íslenskri málheild. Þróaður hefur verið gagnagrunnur og vefviðmót fyrir málheildina og var það umhverfi lagað að þörfum talmálsefnisins. Það gerir kröfur um að leit skili ekki einungis umrituðum textadæmum heldur veiti einnig aðgang að viðkomandi dæmum í hljóðskránum. Talmálsefni er líka öðru vísi samansett en dæmigerðir ritmálstextar að því leyti að hver skrá er ekki framlag eins höfundar heldur eru þátttakendur yfirleitt fleiri, jafnvel í efni eins og umræðunum þar sem yfirleitt talar aðeins einn í einu. Tengingar við lýsigögnin eru því að mörgu leyti flóknari en í ritmálsefni.

 

Aðstandendur og fjármögnun

Efnisins var aflað og það unnið í tengslum við rannsóknina Tilbrigði í setningagerð (kostað af öndvegisstyrk frá Rannís 2005-2007) og síðar sem hluti af verkefni sem miðaði að kóðun og frágangi íslenskra talmálsgagna (styrkir úr skráningardeild Rannsóknasjóðs Háskóla Íslands 2008-2009). Ásta Svavarsdóttir annaðist efnisöflun frá Alþingi og hafði umsjón með úrvinnslunni en hana önnuðust einkum stúdentar í íslensku. Helga Birgisdóttir fór yfir skrárnar sem komu frá Alþingi; Gunnar Hrafn Hrafnbjargarson lagði grunn að flutningi gagnanna í Transcriber og frekari vinnu við þau þar, þ.m.t. samstillingu hljóðs og texta með xml-kóðun og skráningu lýsigagna. Hann gekk frá allnokkrum skrám á því sniði en Sigrún Steingrímsdóttir, Sigrún Ammendrup og Hjördís Stefánsdóttir tóku síðar við og luku verkinu.

Sigrún Helgadóttir hafði umsjón með flutningi efnisins í gagnasafn og Guðmundur Örn Leifsson og Steinþór Steingrímsson sáu um að búa um efnið og laga vefviðmótið að þörfum talmálsefnis.

Um sinn er ekki unnt að hlusta á hljóð heldur aðeins sjá texta þegar leit í Markaðri íslenskri málheild skilar texta úr Alþingisræðum (27.10.2014).


Hafið samband

Ásta Svavarsdóttir
Rannsóknardósent
Stofnun Árna Magnússonar í íslenskum fræðum
Netfang: asta.svavarsdottir [hjá] arnastofnun.is


Ritaskrá

Ásta Svavarsdóttir. 2007. Talmál og málheildir - talmál og orðabækur. [Spoken language and corpora - spoken language and dictionaries.] Orð og tunga 9: 25-50.

Höskuldur Þráinsson, Ásgrímur Angantýsson, Ásta Svavarsdóttir, Þórhallur Eyþórsson, Jóhannes Gísli Jónsson. 2007. The Icelandic (Pilot) Project in ScanDiaSyn. In Bentzen and Vangsnes (eds), Scandinavian Dialect Syntax 2005, special issue of Nordlyd - Tromsø University Working Papers in Language & Linguistics, pp. 87-124. Tromsø: The University Library of Tromsø.

Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Proceedings of the Workshop on Language Technology for Normalisation of Less-Resourced Languages -SaLTMiL 8 - AfLaT2012. Istanbúl, Tyrklandi.