Almenn framburðarorðabók fyrir talgreiningu er unnin upp úr Framburðarorðabókinni. Hún inniheldur sem stendur um 136 þúsund orð hljóðrituð með IPA.
Orðabókin er unnin upp úr Framburðarorðabókinni sem þróuð var innan Hjal verkefnisins. Hún er notuð í opnum íslenskum talgreini fyrir íslensku sem er í þróun við Háskólann í Reykjavík, sjá https://github.com/bnika/ice-asr.
Hljóðritanir Hjal orðabókarinnar, sem eru handunnar, voru að nokkru leyti yfirfarnar. Fyrst og fremst var þess gætt að engin hljóðritunartákn fyrir utan þau tákn sem skilgreind voru fyrir talgreininn væru notuð, innsláttarvillur leiðréttar og samræmi í hljóðritun aukið.
Framburðarmöguleikum einstakra orða hefur einnig verið fækkað nokkuð. Yfirfarnar hljóðritanir voru notaðar til þess að þjálfa grapheme-to-phoneme algrím sem hljóðritar ný orð sjálfvirkt, og öll orð sem bætt var við orðalistann hljóðrituð með þeirri aðferð.
Búið er að útbúa þau gögn úr framburðarorðabókinni sem nauðsynleg eru fyrir vinnu með Kaldi talgreinishugbúnaðinn.
Framburðarorðabókin fyrir talgreiningu verður uppfærð reglulega ásamt tilheyrandi talgreinisgögnum.
Anna Björk Nikulásdóttir
Netfang: annabn@ru.is
Jón Guðnason
Netfang: jg@ru.is