Jensson-málheildin er íslensk talmálsheild sem byggir á upplesnum texta sem er veginn með tilliti til hljóðatvennda.
Jensson-málheildin er 3,8 klukkutímar að lengd með 5.612 segðum (44.1khz 16 bit) frá 20 málhöfum (13kk/7kvk).
Lesni textinn hefur að geyma orð sem voru valin með það í huga að textinn yrði sem stystur þó að hann hafi sem flestar hljóðtvenndir sem koma fyrir í íslensku. Textinn er í spurningaformi. Allir málhafir lásu sama textann, um 11 mínútur af lesnum texta.
SpeakerID | Kyn | Aldur |
1-02-m03 | KK | 30 |
2-03-m01 | KK | 24 |
2-03-m02 | KK | 25 |
2-03-m03 | KK | 22 |
2-03-m04 | KK | 22 |
2-04-f01 | KVK | 25 |
2-04-m05 | KK | 29 |
2-04-m06 | KK | 23 |
2-04-m07 | KK | 27 |
2-05-f02 | KVK | 32 |
2-05-m08 | KK | 27 |
2-05-m09 | KK | 33 |
2-06-f04 | KVK | 50 |
2-06-f05 | KVK | 49 |
2-06-m10 | KK | 24 |
2-07-f06 | KVK | 30 |
2-07-f07 | KVK | 26 |
2-07-f08 | KVK | 25 |
2-07-m11 | KK | 33 |
2-08-m12 | KK | 29 |
Enginn málhafanna í Jensson-málheildinni tók þátt í Þór-málheildinni eða RÚV-málheildinni.
The_Jensson_Corpus/SpeakerID/*.wav - Bútaðar hljóðskrár
intro*.wav - málhafi kynnir sjálfa(n) sig (ekki lesið)
text*.wav - hin eiginlega hljóðtvennda segð (lesinn texti)
woz*.wav - málhafi talar eðlilega (ekki lesið)
Umritun - The_Jensson_Corpus/SpeakerID/transcription.xml - Allar talaðar segðir unmritaðar á íslensku.
Að auki eru þessi skjöl aðgengileg: The_Jensson_Corpus/fileToPhonemeMapText.mlf - Fónemísk umritun með tilliti til allra hljóðtvennda segðanna, þ.e. allar SpeakerID/text*.wav skrárnar.
The_Jensson_Corpus/fileToTriPhonemeMapText.mlf - þriggja fónema umritun með tilliti til allra hljóðtvennda segðanna, þ.e. allar SpeakerID/text*.wav skrárnar.
The_Jensson_Corpus/fileToPhonemeMapWoz.mlf - fónemísk umritun með tilliti til allra woz matsskránna, þ.e. allar SpeakerID/woz*.wav skrárnar.
The_Jensson_Corpus/jensson.phoneme.dictionary - öll skilgreind fónem í íslensku sem notuð eru í málheildinni.
Arnar Þór Jensson
Netfang: arnarjensson@gmail.com
Arnar Thor Jensson, Koji Iwano, and Sadaoki Furui. Language model adaptation using machine-translated text for resource-deficient languages. Eurasip Journal on Audio, Speech, and Music Processing, vol. 2008, 2008