Hjal-verkefnið var hluti af tungutækniátaki menntamálaráðuneytisins sem ætlað var að styrkja stuðning við íslensku í ýmsum tölvukerfum. Hjal-verkefnið snerist um gerð talgreinis. Nokkur fyrirtæki á sviði hugbúnaðar og fjarskipta tóku höndum saman við Háskóla Íslands um að búa til gögn svo að unnt væri að gera talgreini fyrir íslensku. Verkefnið var styrkt af Tungutækniverkefni mennta- og menningarmálaráðuneytisins Gögnin sem finna má á þessari síðu eru afrakstur þessarar vinnu.
Hjal-verkefnið var hluti af tungutækniverkefni mennta- og menningarmálaráðuneytisins sem ætlað var að styrkja stuðning við íslensku í ýmsum tölvukerfum. Fyrirtækin Hex hugbúnaður, Síminn, Nýherji og Grunnur-Gagnalausnir (nú Trackwell) tóku höndum saman við Háskóla Íslands um að búa til gögn svo að unnt væri að gera talgreini fyrir íslensku. Markmið verkefnisins var að safna nægilegum gögnum til þess að þjálfa mælandafrjálsan stakorðagreini. Þar sem verkefnið var að hluta til fjármagnað af opinberu fé var ætlast til að gögnin yrðu aðgengileg hverjum þeim sem óskaði eftir að nota þau við gerð talgreinis fyrir íslensku. Verkefnið hófst í lok árs 2002.
Sett var á fót verkefnisstjórn þar sem var einn aðili frá hverjum þátttakanda. Sæmundur Þorsteinsson frá Símanum var formaður verkefnisstjórnarinnar. Helga Waage frá Hex hugbúnaði var verkefnisstjóri og Eiríkur Rögnvaldsson prófessor bar ábyrgð á málfræðilegum undirbúningi. Verkefnið var unnið í samstarfi við fyrirtækið Scansoft Inc. sem tók að sér að þjálfa talgreininn á þeim gögnum sem var safnað. Fyrirtækið var framarlega í gerð talgreina og hafði skilgreint nákvæmlega hvaða gögn væru nauðsynleg til þess að búa til talgreini fyrir tiltekið tungumál. Fyrirtækið hafði á þessum tíma þróað talgreina fyrir 47 tungumál, íslenski talgreinirinn varð sá fertugasti og áttundi.
Scansoft notar SAMPA-hljóðritunarstaðal og fyrsta verkefnið var að búa til slíkan staðal fyrir íslensku. Síðan var búin til nákvæm lýsing á íslenskum málhljóðum og málhljóðasamböndum. Einnig var búinn til listi yfir allar hugsanlegar tvístæður (e. diphones) og algengustu þrístæður (e. triphones). Í ljós kom að það eru næstum 800 tvístæður í íslensku.
Síðan voru búin innhringiblöð fyrir þátttakendur til þess að lesa. Scansoft gaf grófar leiðbeiningar um hvernig slík blöð ættu að líta út. Á þeim áttu að vera orð og setningar sem líklegt væri að talgreinir þyrfti að greina. Þar átti að vera tiltekinn fjöldi mannanafna, staðarnafna, fyrirtækjaheita, tölutákna, talna, skipana og uppfyllingarhljóða.
Frá útgáfufyrirtækinu Eddu fengust stafrænir textar 100 nýjustu skáldsagna sem fyrirækið hafði gefið út. Úr því textasafni voru dregnar allar setningar sem höfðu 5-12 orð. Þá fengust um 90.000 setningar. Búinn var til tiðnilisti yfir allar tvístæður sem komu fyrir í þessum setningum. Listinn var notaður til þess velja 3000 setningar sem höfðu nægilega margar tvístæður og algengar þrístæður.
Farið var yfir allar setningarnar og setningar sem höfðu erlend nöfn eða hugsanlega meiðandi texta voru fjarlægðar. Niðurstaðan var 1433 mismunandi setningar. Þá voru búin til 1000 ólík innhringiblöð með því að velja af handahófi úr listum yfir nöfn, tölur og setningar.
Síðasti liður í málfræðilegum undirbúningi var að búa til tíðnilista yfir orð í íslensku og hljóðrita hann. Þessi listi er aðgengilegur hér.
Verkefnið fékk góða kynningu og 3000 manns buðust til þess að hringja og lesa innhringiblöðin. Fyrirtækið Gallup var fengið til þess aðstoða við að fá sjálfboðaliða til þess að hringja. Þegar um 2000 gildar upptökur höfðu fengist var söfnun hætt. Búin voru til 1000 innhringiblöð þannig að tveir lásu að meðaltali af hverju blaði.
Upptökurnar voru umritaðir með venjulegri íslenskri stafsetningu. Nemendur í máltækni við Háskóla Íslands sáu um umritun á upptökum og orðalistanum undir stjórn Eiríks Rögnvaldssonar prófessors.
Verkefninu lauk í október árið 2003. Eftir það var talgreinirinn prófaður og reyndist bera kennsl á um 97% orða. Notkun á talgreininum varð minni en búist var við.
Hér eru gögn sem urðu til í verkefninu gerð aðgengileg til notkunar við gerð talgreinis eða til annarra nota. Hér er boðið upp á efni frá 883 málhöfum, hljóðskrár og textaskrár.
Hér er boðið upp á að sækja zip-skrá sem í eru 883 möppur. Í hverri möppu eru gögn frá einum málhafa, um 47 hljóðskrár og ein textaskrá. Í hverri hljóðskrá er ein segð. Í textaskrá málhafans er umritaður texti allra hljóðskráa viðkomandi málhafa, notaður var SAMPA-staðall fyrir hljóðritun. Hljóðskrár og textaskrár eru samstilltar. Hljóðskrár eru í wav-sniði. Texti er skráður í UTF8-staðli. Væntanlegir notendur þurfa að skrá sig og samþykkja notkunarskilmála. Sækja Hjal hér.
Eiríkur Rögnvaldsson
prófessor í íslenskri málfræði
Íslensku- og menningardeild
Háskóla Íslands, Hugvísindasviði
Netföng: eirikur@hi.is; eirikur.rognvaldsson@gmail.com.
Vefsíða: http://uni.hi.is/eirikur/
Eiríkur Rögnvaldsson. 2004. The Icelandic Speech Recognition Project Hjal.
Holmboe, Henrik (ritstj.): Nordisk Sprogteknologi. Nordic Language Technology. Årbog 2003, s. 239-242. Museum Tusculanums Forlag, Kaupmannahöfn.
Helga Waage: Hjal - gerð íslensks stakorðagreinis. Samspil tungu og tækni, s. 49-53. Menntamálaráðuneytið, Reykjavík.