Feldolgozás PDF Nyomtatás E-mail

            A gyűjtés utáni szövegfeldolgozás, azaz munkánk érdemi része nem jelentett különösen nehéz feladatot, mivel az csupán már meglévő szövegek XML-formátumúvá történő átalakításában merült ki. Megfelelő programok hiányában a feladat nehézsége főleg a folyamat hosszúságában rejlett, ám ez a folyamat (akár egyszerű Word-alkalmazásokkal is) jól automatizálható – így ideje jelentősen csökkenthető. A határon túli anyagok esetében a feldolgozás két elkülöníthető folyamatból áll. Az első folyamat, azaz a szövegek átalakítása az egyes irodákban, míg a feldolgozás második, és egyben bonyolultabb folyamata pedig az MTA Nyelvtudományi Intézetében történt (értelemszerűen a magyarországi anyagok esetében mindkét részfolyamat Magyarországon történik).

            Az alapformátumtól (alapszövegtől) a célformátumig tartó számítógépes és számítógépes nyelvészeti folyamatok a következőképpen modellálhatjuk:

1. A Termini Kutatóhálózat által végzett folyamat:


.doc/.txt/.html → tiszta szöveg → .xml szöveg → validált .xml-szöveg

Ahogy az ábrából is látszik, a folyamat nem túl bonyolult mindössze egy bonyolultabb szövegszerkesztő programra, és egy előre meghatározott dtd[1]-re van szükségünk. A megformázott és annotált szövegek további elemzését az MTA Nyelvtudományi Intézetében végezték el.

2. A Nyelvtudományi Intézetben végzett folyamat során minden adott szóalak morfo­szintaktikai jegyei kódok formájában (ún. msd, azaz morpho-syntactic description kódok) az adott szóalak mellé kerülnek. Ezt a kódolást a MorphoLogic Kft.-ben kifejlesztett HUMOR (High-Speed Unification Morphology) morfológiai elemzőprogram végzi: a program lényege, hogy szótár és nyelvtan segítségével felismeri (elemzi vagy adott esetben generálja) az adott szóalakokat. Mivel a program nem rendelkezik szemantikai ismeretekkel, így általában egy-egy szónak több elemzését is létrehozza (pl. ultramarinkék=ultramarin[FN]+kék[FN] ~ ultra[FN]+mar[FN]+i[_IKEP]+nk[PSt1]+ék[FAM]+[NOM]). Ezek a szóalak-homonimák többségében azonban még a morfológiában kezelhetők, sőt a szövegszintaxis ismeretében általában majdnem teljes mértékben egyértelműsíthetők. A már egyszerűsített szöveget az .xml-dokumentumoknak megfelelő szerkezet szerint fejléccel látják el, amely tartalmazza a szöveg keletkezésére és megjelenésére vonatkozó információkat (pl. a szöveg keletkezésének ideje, helye, a szöveg szerzője, a kiadó neve, stb. – lásd http://www.tei-c.org/P4X/HD.html). A szövegek feldolgozásának második részét röviden a következőképpen foglalhatjuk össze:

 

validált .xml-szöveg → szövegrészek szegmentálása → (szóalak-homonimák) egyszerűsítése → annotált (kódolt) részkorpusz → TEI header (fejléc) → belső referenciamutatók → végső validálás → Kárpát-medencei magyar nyelvi korpusz



[1] Document Type Definition – az xml-szöveg szerkezetét meghatározó dokumentum.