Jensson málheildin

Jensson-málheildin er íslensk talmálsheild sem byggir á upplesnum texta sem er veginn með tilliti til hljóðatvennda.

Sækja málheildina hér

Um Jensson-málheildina

Jensson-málheildin er 3,8 klukkutímar að lengd með 5.612 segðum (44.1khz 16 bit) frá 20 málhöfum (13kk/7kvk).

Lesni textinn hefur að geyma orð sem voru valin með það í huga að textinn yrði sem stystur þó að hann hafi sem flestar hljóðtvenndir sem koma fyrir í íslensku. Textinn er í spurningaformi. Allir málhafir lásu sama textann, um 11 mínútur af lesnum texta.

Upplýsingar um málhafa

SpeakerID	Kyn	Aldur
1-02-m03	KK	30
2-03-m01	KK	24
2-03-m02	KK	25
2-03-m03	KK	22
2-03-m04	KK	22
2-04-f01	KVK	25
2-04-m05	KK	29
2-04-m06	KK	23
2-04-m07	KK	27
2-05-f02	KVK	32
2-05-m08	KK	27
2-05-m09	KK	33
2-06-f04	KVK	50
2-06-f05	KVK	49
2-06-m10	KK	24
2-07-f06	KVK	30
2-07-f07	KVK	26
2-07-f08	KVK	25
2-07-m11	KK	33
2-08-m12	KK	29

Enginn málhafanna í Jensson-málheildinni tók þátt í Þór-málheildinni eða RÚV-málheildinni.

Skipulag gagna

The_Jensson_Corpus/SpeakerID/*.wav - Bútaðar hljóðskrár
intro*.wav - málhafi kynnir sjálfa(n) sig (ekki lesið)
text*.wav - hin eiginlega hljóðtvennda segð (lesinn texti)
woz*.wav - málhafi talar eðlilega (ekki lesið)

Umritun - The_Jensson_Corpus/SpeakerID/transcription.xml - Allar talaðar segðir unmritaðar á íslensku.

Að auki eru þessi skjöl aðgengileg: The_Jensson_Corpus/fileToPhonemeMapText.mlf - Fónemísk umritun með tilliti til allra hljóðtvennda segðanna, þ.e. allar SpeakerID/text*.wav skrárnar.

The_Jensson_Corpus/fileToTriPhonemeMapText.mlf - þriggja fónema umritun með tilliti til allra hljóðtvennda segðanna, þ.e. allar SpeakerID/text*.wav skrárnar.

The_Jensson_Corpus/fileToPhonemeMapWoz.mlf - fónemísk umritun með tilliti til allra woz matsskránna, þ.e. allar SpeakerID/woz*.wav skrárnar.

The_Jensson_Corpus/jensson.phoneme.dictionary - öll skilgreind fónem í íslensku sem notuð eru í málheildinni.

Hafið samband

Arnar Þór Jensson
Netfang: arnarjensson@gmail.com

Ritaskrá