Þjónusta 

Ýmis verkfæri til málvinnslu:

Þjónustusíða CLARIN ERIC 

CLARIN á Íslandi hefur þegar komið upp lýsigagnamiðstöð (CLARIN C-centre) sem hýsir lýsigögn íslenskra málfanga og dreifir þeim gegnum sýndarsafn málfanga (e. Virtual Language Observatory) sem er aðgengilegt á þjónustusíðu CLARIN ERIC. Stefnt er að því að koma upp tæknilegri þjónustumiðstöð (e. service providing centre, CLARIN B-centre) sem hýsi margvísleg málföng og veiti ráð og upplýsingar um uppbyggingu, skráningu og varðveislu þeirra. Einnig er stefnt að því að koma upp þekkingarmiðstöð (e. knowledge centre, CLARIN K-centre) um íslenskt mál.

CLARIN ERIC er stofnað til að halda utan um stafræna innviði – gögn og hugbúnað – til nota við rannsóknir í félags- og hugvísindum. Eftir að almenn tölvuvæðing hófst fyrir 40 árum eða svo hefur orðið til gífurlega mikið af stafrænum gögnum af ýmsu tagi – textasöfn, orðasöfn, og alls kyns skrár. Sumt af þessu hefur verið byggt upp frá grunni á undanförnum áratugum, en einnig hefur verið gert mikið átak í því að koma eldri gögnum á stafrænt form.

Stafræn gögn bjóða vitaskuld upp á margvíslega möguleika umfram pappírsgögn. Það er margfalt fljótlegra að leita í þeim, vinna ýmiss konar skrár og töflur upp úr þeim, o.s.frv. Stafræn gögn eru líka margfalt sveigjanlegri en pappírsgögn – auðvelt að lagfæra villur í þeim, uppfæra þau, raða þeim á mismunandi hátt, o.s.frv. Notendur eru ekki lengur háðir einu eintaki á tiltekinni stofnun eða safni – það er auðvelt að afrita gögnin og dreifa þeim, eða gera þau aðgengileg á netinu.

Þetta stórbætta aðgengi að gögnum leiðir vitanlega til þess að miklu fleiri fræðimenn geta nýtt þau en áður, og eflir þannig og styrkir margvíslegar rannsóknir. En þetta þýðir líka að fólk er oft að skoða og vinna með gagnasöfn sem það þekkir ekki fyrir. Söfnin eru mjög margbreytileg, framsetning þeirra misjöfn, leitarmöguleikar ólíkir, og svo mætti lengi telja. Það getur verið mjög flókið og tímafrekt fyrir ókunnuga að setja sig inn í þetta og átta sig á því hvernig hægt er að finna það sem leitað er að í gögnunum.

Meginmarkmið CLARIN ERIC er að nýta þá möguleika sem stafræn málleg gögn, málföng (e. language resources), bjóða upp á, og bæta aðgengi að þessum gögnum og hugbúnaði sem gerður er til að vinna með þau. Þetta krefst margvíslegs undirbúnings sem mikilvægt er að sem víðtækust samvinna sé höfð um. Jafnframt er markmið CLARIN ERIC að notendur geti nýtt notandanafn og aðgangsorð við heimastofnun sína til að fá aðgang að þessum gögnum og búnaði (e. single sign-on).

Í hverju þátttökulandi eru settar upp CLARIN-miðstöðvar (e. CLARIN Centres), ein eða fleiri. Þessar miðstöðvar eru af mismunandi tegundum. Einfaldasta tegundin eru svokallaðar C-miðstöðvar (e. CLARIN C-Centre) sem varðveita lýsigögn (e. metadata), en aðaltegundin er svokallaðar B-miðstöðvar (e. CLARIN B-Centre) sem varðveita gögn ásamt lýsigögnum og veita ákveðna þjónustu, s.s. upplýsingar um gögn og tæknilega ráðgjöf. Þriðja tegundin er svo K-miðstöðvar (e. CLARIN K-Centre) sem eru upplýsingaveitur um tiltekin málleg efni, t.d. einstakt tungumál.

Áður en gögn eru skráð í miðlægan gagnagrunn CLARIN ERIC þarf í fyrsta lagi að útbúa lýsigögn þar sem innhaldi gagnanna er lýst og upplýsingar gefnar um ýmis atriði sem þau varða – höfunda, tungumál, gagnasnið, notkunarskilmála o.s.frv. Þessi lýsigögn þurfa að vera á samræmdu sniði til að auðvelda notkun þeirra og leit í þeim. CLARIN ERIC hefur útbúið sniðmát fyrir lýsigögn til að leiðbeina notendum um hvaða upplýsingar þurfi að fylgja gögnunum.

Í öðru lagi þarf að ákveða notkunarskilmála gagnanna – hvort þau eru öllum opin og aðgengileg án takmarkana, eða hvort einhverjar takmarkanir eru á aðgengi og notkun, og þá hverjar. Það er t.d. algengt að óheimilt sé að nýta gögn í hagnaðarskyni eða breyta þeim á einhvern hátt. Til eru ýmsir staðlaðir leyfisskilmálar sem hægt er að velja á milli, t.d. svonefnd Creative Commons-leyfi, en einnig er hægt að gera gögn aðgengileg með sérsniðnum leyfum.

Í þriðja lagi getur þurft að breyta gagnasniðinu. Ýmis samræmd snið hafa verið sett fram fyrir mismunandi tegundir mállegra gagna – textasöfn, orðasöfn, handrit, uppskriftir hljóðskráa o.s.frv. Þar má ekki síst nefna margvísleg snið frá Text Encoding Initiative. Æskilegt er að gögn séu á einhverju slíku þekktu sniði eftir því sem kostur er, en lágmarkskrafa er að sniði gagnanna sé nákvæmlega lýst þannig að auðvelt sé fyrir notendur að átta sig á því.

Í fjórða lagi þarf að gera gögnin aðgengileg, ásamt lýsigögnum. Það er hægt að gera á ýmsan hátt. Að sumum gögnum er eingöngu leitaraðgangur gegnum ákveðið leitarviðmót. Notendur geta þá leitað að orðum og orðasamböndum en það er misjafnt eftir gagnasniði og leitarviðmóti hversu nákvæm leitin getur verið, og eftir hvaða atriðum er hægt að leita. Í öðrum tilvikum er hægt að sækja gögnin í heild, stundum með ákveðnum skilyrðum sem kveðið er á um í leyfisskilmálum sem þarf að samþykkja áður en gögnin eru sótt.

Miðlægt tölvukerfi CLARIN ERIC skannar reglulega allar lýsigagnaskrár sem vistaðar eru á öllum CLARIN-miðstöðvum. Upplýsingar úr þessum skrám fara inn í miðlægan gagnagrunn, sýndarsafn málfanga, og þar er hægt í einni leit að leita í lýsigögnum meira en milljón málfanga um alla Evrópu. Öllum gögnum sem eru lögð inn til einhverrar CLARIN-miðstöðvar er gefið varanlegt auðkenni (e. Persistent Identifier, PID). Það tryggir að ávallt sé hægt að finna gögnin enda þótt vistun þeirra og hefðbundin vefslóð (URL) kunni að breytast.