RÚV-málheildin er íslensk talmálsheild sem byggist á upplesnum texta sem er veginn með tilliti til hljóðatvennda. Hún er 46 mínútur að lengd með 400 segðum (wav 44.1khz 16 bit) frá 20 málhöfum (10kk/10kvk).
RÚV-málheildin er íslensk talmálsheild sem byggist á upplesnum texta sem er veginn með tilliti til hljóðatvennda. Hún er 46 mínútur á lengd með 400 segðum (wav 44.1khz 16 bit) frá 20 málhöfum (10kk/10kvk).
Gagnasafnið hefur að geyma lesnar fréttir þar sem mikill orðaforði kemur fram. Engir tveir málhafar lásu sama texta.
Auðkenni málhafa | Kyn | Skrár (.wav) |
f1 | KVK | 1-20 |
f2 | KVK | 21-38 |
f3 | KVK | 39-58 |
m1 | KK | 59-78 |
m2 | KK | 79-98 |
m3 | KK | 99-118 |
m4 | KK | 119-138 |
m5 | KK | 139-158 |
m6 | KK | 159-178 |
m7 | KK | 179-198 |
m8 | KK | 199-218 |
f4 | KVK | 219-240 |
f5 | KVK | 241-260 |
f6 | KVK | 261-280 |
f7 | KVK | 281-300 |
f8 | KVK | 301-320 |
f9 | KK | 321-340 |
m9 | KK | 341-360 |
m10 | KK | 361-380 |
f10 | KVK | 381-400 |
Enginn málhafanna í RÚV-málheildinni tók þátt í Jensson-málheildinni eða Þór-málheildinni.
Skrárnar "The_Broadcast_News_RUV-1_Corpus/*.wav" eru bútaðar hljóðskrár.
Í skránni "The_Broadcast_News_RUV-1_Corpus/transcription.rtf" er umritun allra lesnu segðanna á íslensku.
Arnar Þór Jensson
Netfang: arnarjensson@gmail.com