Þór-málheildin er íslensk talmálsheild sem byggist á upplesnum texta sem er veginn með tilliti til hljóðatvennda. Hún er tveir klukkutímar að lengd með 4000 segðum (wav 44.1khz 16 bit) frá 20 málhöfum (10kk/10kvk).
Þór-málheildin er íslensk talmálsheild sem byggist á upplesnum texta sem er veginn með tilliti til hljóðatvennda. Hún er tveir klukkutímar að lengd með 4000 segðum (wav 44.1khz 16 bit) frá 20 málhöfum (10kk/10kvk).
Í málheildinni eru 20 málhafar, 10 kvenmenn og 10 karlmenn. Hljóðskrárnar fyrir hvern málhafa eru í undirmöppum. Í möppu 'm7' eru skrár fyrir karlmann númer 7. Hver málhafi les um það bil 200 setningar úr upplýsingum um veðurfar.
Textinn var þýddur úr JUPITER-málheildeinni frá MIT. 1000 einstakar setningar voru valdar af handahófi úr JUPITER-málheildinni og þýddar. Erlendu staðarnöfnin voru merkt og þeim skipt út fyrir íslensk staðarnöfn sem valin voru af handahófi. Örfá erlend staðarnöfn fengu að halda sér.
Textasafnið inniheldur spurningar um veðrið (meðalstór orðaforði). Heildarorðaforði fyrir þetta ákveðna svið er um 2000 orðmyndir. Hver málhafi les 20 segðir og er mismunandi eftir málhöfum hverjar þær eru.
Upptökur fóru fram í apríl 2005 til október 2005 og var eftirtalinn búnaður notaður:
DAT-spólum var breytt í stafrænt form með:
Skráin transcriptions.rtf hefur að geyma umritun allra töluðu segðanna á íslensku.
Þar að auki fylgir textaskráin "text.xml" öllum undirmöppum. Hver lína lýsir tiltekinni hljóðskrá í möppunni. Lína 16 er þannig umritun á hljóðskránni "16.wav", o.s.frv. Hins vegar er betra að nota skrána transcription.rtf.
Hljóðskrár sem hafa nafnaukann ".wav.notused" voru ekki taldar nógu góðar til að verða hluti af málheildinni.
Eftirfarandi upplýsingar eru um málhafana, aldur þeirra, stað í upphaflegu DAT-upptökunum og línurnar sem þeir lásu.
Málhafa# | Kyn | Aldur | DAT spóla | staður | Línur lesnar | Bútað |
(sec) | ||||||
f1 | F | NA | E2 | NA | 1 - 210 | 374 |
f2 | F | NA | E2 | NA | 1 - 210 | 454 |
f3 | F | 21 | E3 | 0:00:00 - 0:11:41 | 111 - 330 | 324 |
f4 | F | 22 | E3 | 0:13:00 - 0:23:04 | 111 - 330 | 304 |
f5 | F | 22 | E3 | 0:24:00 - 0:35:55 | 221 - 440 | 396 |
Enginn málhafanna í Þór-málheildinni tók þátt í Jensson-málheildinni eða RÚV-málheildinni.
Arnar Þór Jensson
Netfang: arnarjensson@gmail.com