Almenn framburðarorðabók fyrir talgreiningu

Almenn framburðarorðabók fyrir talgreiningu er unnin upp úr Framburðarorðabókinni. Hún inniheldur sem stendur um 136 þúsund orð hljóðrituð með IPA.

  • Sækja Almennu framburðarorðabóklina hér. Textarnir eru aðgengilegir með CC BY 4.0 leyfi.

Um almenna íslenska framburðarorðabók fyrir talgreiningu

Orðabókin er unnin upp úr Framburðarorðabókinni sem þróuð var innan Hjal verkefnisins. Hún er notuð í opnum íslenskum talgreini fyrir íslensku sem er í þróun við Háskólann í Reykjavík, sjá https://github.com/bnika/ice-asr.

Samsetning orðalista

Talgreinirinn var þjálfaður á Málrómi og algengum orðum úr þeim textum var bætt við framburðarorðabókina. Einnig var orðaforðinn stækkaður með algengum orðum úr Íslenskum orðasjóði. Jafnframt var orðum sem ekki koma fyrir í Málrómi eða textasafni Orðasjóðsins eytt af orðalista orðabókarinnar.

Hljóðritun

Hljóðritanir Hjal orðabókarinnar, sem eru handunnar, voru að nokkru leyti yfirfarnar. Fyrst og fremst var þess gætt að engin hljóðritunartákn fyrir utan þau tákn sem skilgreind voru fyrir talgreininn væru notuð, innsláttarvillur leiðréttar og samræmi í hljóðritun aukið.
Framburðarmöguleikum einstakra orða hefur einnig verið fækkað nokkuð. Yfirfarnar hljóðritanir voru notaðar til þess að þjálfa grapheme-to-phoneme algrím sem hljóðritar ný orð sjálfvirkt, og öll orð sem bætt var við orðalistann hljóðrituð með þeirri aðferð.

Útgáfa fyrir talgreiningu með Kaldi

Búið er að útbúa þau gögn úr framburðarorðabókinni sem nauðsynleg eru fyrir vinnu með Kaldi talgreinishugbúnaðinn.
Framburðarorðabókin fyrir talgreiningu verður uppfærð reglulega ásamt tilheyrandi talgreinisgögnum.

 


Hafið samband

Anna Björk Nikulásdóttir
Netfang: annabn@ru.is
Jón Guðnason
Netfang: jg@ru.is