A Kárpát-medencei magyar nyelvi korpusz készítésének részei

A kutatóhálózat által feldolgozott anyag főbb szerkezeti pontjaiban követte a Magyar nemzeti szövegtárat (így alkotják együttesen a Kárpát-medencei magyar nyelvi korpuszt). A gyakorlati megvalósulásban ez azt jelenti, hogy az MNSz magyarországi anyagához hasonlóan a határon túli korpusz is kötelezően öt alkorpuszból áll: tudományos próza, publicisztika, szépirodalom, hivatalos nyelv, személyes közlések. Az anyaggyűjtést minden irodában gondos szervezőmunka előzte meg, hiszen a felgyűjtött anyagoknak már egy kész struktúrába kellett beilleszkedniük.

A sajtónyelvi alkorpusz összeállítása kiemelten fontos előkészületet kívánt, egyrészt mivel a sajtónyelvi szövegek maguk is többfélék (napilapok, ifjúsági lapok, női lapok stb.), így a belső arányokat is meg kellett állapítani, másrészt mivel a határon túli magyar lapok magyarországi lapokból, illetve hírügynökségektől is vesznek át cikkeket, s ezeket előzőleg ki kellett válogatni, hiszen nem magyarországi anyagok feldolgozását tűztük ki célul.

A korpusz öszeállításakor fontos szerkezeti elv volt, hogy a Kárpát-medencei magyar nyelvi korpusz a magyar nyelv jelenlegi állapotát rögzítse, ezért a korpusz nem – elméletileg – nem tartalmaz(hat)ott rendszerváltás előtt keletkezett szövegeket. Ezt a követelményt nem minden alkorpusz esetében tudtuk betartani, mivel például a szépirodalmi szövegek között vannak korábbi keletkezésűek is[1]. Ez azonban nem okoz értelmezési és szerkezeti gondot (már csak azért sem, mivel a szépirodalmi stílus „szabadsága” kortalan, illetve kevésbé változó, mint mondjuk a beszélt nyelvi).

A tudományos prózát tartalmazó alkorpusz összeállításának, gyűjtésének fő problémája, hogy a határon túli magyar tudományos élet bizonyos szinten gyakran többségi nyelven folyik: például a szlovákiai magyar tudományos elitet alkotó réteg szlovák nyelvű munkahelyeken dolgozik, illetve – általában – szlovák nyelven publikál. Ezért a szigorúan tudományos ismérvek szerint írott szövegekből jóval kevesebb van, mint Magyarországon, illetve ezért arányában több a tudományos ismeretterjesztő próza, mint a magyarországi mintában.

A határon túli magyar hivatali nyelvet (nyelvhasználatot) bemutató alkorpusz egyik alappillére a kutatóhálózat nyelvtervezési tevékenysége volt (például a Gramma Nyelvi Iroda nyelvtervezési és fordítótevékenysége).

A legösszetettebb és legmunkaigényesebb részfeladatot a beszélt nyelvi alkorpusz megszerkesztése jelentette, illetve jelenti mind a mai napig. Alapvető probléma a beszélt nyelvi szövegek lejegyzése. Az egyes hangtani jelenségek lejegyzésénél nemcsak a hanganyag lehető legárnyaltabb visszaadását kell figyelembe venni, hanem a számítógép diktálta lehetőségeket, a minél könnyebb számítógépes keresés feltételeit is állandóan szem előtt kell tartani. Így a lejegyzés nem lehet olyan részletekbe menő, mint egy fonetikai vagy részletes nyelvjárási lejegyzés, ám a hangzó nyelv legfőbb sajátosságait mindenképpen írásban is meg kell próbálni visszaadni. A beszélt nyelvi szövegek lejegyzési útmutatójának véglegesítése csak hosszadalmas és időigényes egyeztetések után fejeződött be, mivel a Gramma Nyelvi Irodában készült részletes útmutatót fonetikus és számítógépes nyelvész is véleményezte. A lejegyzés egységesítése fontos, hiszen csak úgy készülhetnek összehasonlítható átiratok, ha a szövegek egységes kódolási minta alapján készülnek el. Éppen ezért minden irodának lehetősége volt közös minta összeállítására, azonban sajnos nem minden iroda élt ezzel a lehetőséggel, és nem tett javaslatot az útmutató kialakítására. A lejegyzési útmutató így a Gramma Nyelvi Irodában, a Lanstyák István által szerkesztett javaslat alapján készült el Kassai Ilona egységesítésével.

 

[1] Ezt a követelményt a Kárpát-medencei magyar nyelvi korpusz elődje, a Magyar nemzeti szövegtár sem tartotta be, amit a gyűjtés és feldolgozás körülményessége miatt nem is lehet a szerkesztőknek felróni.

© 2017 Termini Egyesület. Minden jog fenntartva.