Az összegyűjtött anyag előkódolása

A gondosan megfogalmazott követelmények szerinti gyűjtés utáni következő lépés a kész szólisták kódolása, mely során a szavakat morfológiai tulajdonságaikkal, valamint előfordulásának területi megjelölésével látjuk el. Így később minden szó területi hovatartozása egyértelműsíthető lesz, és a morfológiai kódok alapján a szavak az elemzőbe is beépíthetőek lesznek. A kódolást egy szlovákiai településnéven, Dunaszerdahelyen mutatom be:

Duna+szerda+hely[FN|pse];nyv:fv;rp; – jelölni kell az összetételi határt (a + jel jelöli), mivel a szó végi toldalékoláskor módosulhat a szótest (a szó elejére kerülő elemek esetében természetesen nem), az elem szófaját (FN, azaz főnév), a szófajon belül milyen szemantikai altípusba tartozik (pse, azaz helynév), melyik állami változat eleme (nyv:fv, azaz felvidéki nyelvváltozat), szótő-e vagy toldalék (rp, azaz jobbra bővülő, tehát szótő), illetve főnevek esetében az egyes szám harmadik szeméjű alakját is (a példában nincs semmi, mivel palatális mássalhangzók esetében a toldalék –A, azaz Dunaszerdahelye); minden szó esetében jelölni kell a melléknév essivusi alakját is –   duna+szerda+hely@i[MN|pse];nyv:fv;rp:Ess_Ul; – (ESS_Ul, azaz dunaszerdahelyiül)

A munka első fázisában a helyneveket és az egyéb földrajzi neveket (folyók, térségek stb. nevei) gyűjtjük össze, s a gyűjtés, illetve kódolás tapasztalataiból kiindulva folytatjuk majd a személynevekkel és a köznevekkel (jelenleg hét régióból a köznevek és a helynevek vannak összegyűjtve és lekódolva.

A ht-lista elemeiből elkészített gyűjtemény 2658 szót tartalmaz. Mivel régiónként sok esetben átfedések vannak, ezért a ht-listából gyűjtött szavak száma nem egyezik meg az egyes listák szavainak összegével. Az egyes államnyelvi változatokból összegyűjtött szavak aránya nem feltétlenül jelenti azt, hogy az egyes beszélőközösségek a táblázat arányaihoz viszonyítottan puristábbak a többieknél, mivel a gyűjtés egyetlen feltétele volt, hogy a felvett szavakat ilyen-olyan mértékben az egész beszélőközösség használja (így például a táblázat alapján nem mondható, hogy az ukrajnai magyarok beszélőközössége puristább a szlovákiai magyarok beszélőközösségénél). 

Nyelvváltozat

Szavak száma

szlovákiai magyar

1291

szerbiai magyar

619

horvátországi magyar

536

szlovéniai magyar

443

romániai magyar

408

ausztriai magyar

336

ukrajnai magyar

315

A különféle szempontok alapján (ezek felsorolásától itt eltekintek) összegyűjtött magyar helységnevek statisztikája a következő:

Nyelvváltozat

Szavak száma

romániai magyar

4781

szlovákiai magyar

1224

szerbiai magyar

439

ukrajnai magyar

152

szlovéniai magyar

86

ausztriai magyar

49

horvátországi magyar

0

Az egyes régiók helyneveinek száma és az ott élő magyarság között itt sem lehet messzemenő következtetéseket levonni, bár az arányok itt valóban tükrözik a valóságot (Horvátország esetében azért szerepel 0, mivel ebből a kutatópontból nem érkeztek adatok).

A kész szólisták felhasználását érintően még nem született megállapodás. Kérdés, hogy a határon túli lexikon milyen formában kapcsolódjon a központi szótárhoz: külön modulként, vagy a központi szótár szerves részeként. Ennek eldöntése azonban technikai (és piaci) kérdés, eldöntése teljes mértékben a MorphoLogic Kft.-t érinti.

© 2017 Termini Egyesület. Minden jog fenntartva.