A Wordject bemutatása

A Termini Kutatóhálózat végzi a MorphoLogic Kft. által gyártott magyar nyelvű helyesírás-ellenőrző és nyelvhelyesség-ellenőrző (a továbbiakban csak helyesírás-ellenőrző) programcsomag határon túli magyar anyagának összeállítását (gyűjtés és kódolás). Ez a program a Microsoft Office termékcsomagban használatos Windows Word, illetve Quark XPress helyesírás-ellenőrzőjeként ismeretes. A program fő célja, hogy jelezze a szövegben előforduló elütéseket és hibás szavakat. A termék felhasználhatósága azonban ezen túlmutat, hiszen rendelkezik egy, a nagyközönség által kevésbé ismert funkcióval is: a nyelvhelyesség-ellenőrzés alapja egy magyar nyelvre alkalmazott morfológiai generáló–elemző motor (HUMOR), amely számítógépen tárolt korpuszok nyelvi elemzésére is alkalmazható (a HUMOR elemzi a Kárpát-medencei magyar nyelvi korpuszt is). Mivel ezeket a műveleteket nem ember, hanem gép végzi, ezért „taníthatósága” eléggé korlátozott: csak meglévő nyelvtani szabályok és kész szótár alapján tud generálni, illetve elemezni. Ez azt jelenti, hogy csak azokat a szavakat fogadja el helyesnek, amelyek az ellenőrző szótárában megtalálhatók (vagy amelyeket a morfológiai elemzőprogram az általa ismert nyelvtani szabályok alapján generál): ez lehet vagy az alapcsomag szótára, vagy a felhasználó által összeállított ún. sajátszótár. Az alapcsomag szótárát a MorphoLogic Kft. állítja össze, így ezt minden általuk terjesztett helyesírás-ellenőrző tartalmazza – ez akár több millió felhasználót is jelenthet, ha figyelembe vesszük a számítógépen magyar nyelven írók számát. A leírtakból következik, hogy feltehetően ma ez a magyar nyelvű szótárakat használó között ez a leggyakrabban használt szótár (bár a felhasználók valószínűleg nem tudnak erről). Az alapszótár csak Magyarországon készített szótárakból áll, így érthető, hogy nem tartalmaz anyagot a magyar nyelv határon túli változataiból (bár az elemző legújabb, még nem piacképes változata tartalmazza az Értelmező kéziszótár második kiadását és az Osiris Kiadó Helyesírását, amelyek – kis számban – tartalmaznak ilyen elemeket). Ez a szóanyag elégséges a Magyarországon kiadott, magyarországi standard nyelvváltozatban írott szövegekre, ám a magyar nyelv állami változatainak (valamint a magyarországi nyelvjárások) sajátos szókincsét nem ismerve a határon túli magyar nyelvváltozatok szövegeire teljes mértékben nem alkalmazható (ahogy nem alkalmazható a magyarországi nyelvjárási szövegekre sem – bár ez az igény eddig – tudomásom szerint – nem merült fel).

A szövegszerkesztőkbe épített helyesírás-ellenőrző aláhúzással jelzi, hogy a felhasználó „valószínűleg” hibás szót írt le, vagy egyéb nyelvhelyességi hibát vétett. A zöld hullámvonallal történő aláhúzás általában nyelvhelyességi vagy szövegszerkezeti hibát jelöl: pl. szóközök (felesleges  szóköz), mondathatár ellenőrzése (! ez egy új mondat.) vagy trágár kifejezések megjelölése (szar). Ez valójában érdektelen a magyar nyelv állami vagy határon túli változatainak megítélése szempontjából, hiszen a szövegszerkezeti sajátosságok és az elemző által kezelt stilisztikai apróságok minden magyar nyelvváltozatra egyformán érvényesek. A piros hullámvonallal történő aláhúzás a helyesírás-ellenőrző által nem ismert szavak megjelölését jelenti. Minden olyan szót aláhúz, amelyet sem az alapszótárban, sem a sajátszótárban nem talál meg. Mivel a határon túli magyar nyelvváltozatok nem részei a szótárnak, így a határon túli magyar nyelvváltozatok sajátos közneveit és a helységnevek túlnyomó többségét aláhúzza, azaz hibás szónak minősíti. Az már tudományos közhelynek számít, hogy a magyar nyelvközösség nyelvileg normatív beállítottságú, azaz a nyelvészektől, szótáraktól kapott információt általában mérlegelés nélkül elfogadja – mivel az úgyis szakemberektől származik. Ebben a folyamatban nagy szerepet játszik a helyesírás-ellenőrző is, hiszen egy ilyen széles körben használt termék (szótár) nem hibázhat. Tehát a nyelvhelyesség-ellenőrző minősít: a Magyarország határain kívüli magyar településnevek esetében gyakori, hogy a szótár nem ismeri a helységnevet, ezért hibának minősíti azt. Ez azonban régi és/vagy széles körben ismert magyar településnevek esetében kétszeresen is bántóan hathat, hiszen ilyenkor az elemző akaratlanul is a magyar nyelv olyan elemeit stigmatizálja, amelyek annak „teljes jogú” és gyakran használt részei, valamint a magyar kultúra alapelemei, pl. Huszt, Ilosva stb.

Azon kívül, hogy az alapszótár bővítése árnyaltabbá teszi a helyesírás-ellenőrző munkáját, teljes mértékben elemezhetővé teszi a Kárpát-medencei magyar nyelvi korpusz határon túli alkorpuszát is, amely a határon túli magyar nyelvváltozatok sajátos lexikai elemei miatt jelenleg csak részben elemezhető.

            A szótár bővítése az MTA Határon túli irodáinak munkatársaitól két munkafolyamatot követel meg:

  1. Az alapszótárba bekerülő szavak kiválasztása
  2. Az összegyűjtött anyag előkódolása

 

© 2017 Termini Egyesület. Minden jog fenntartva.