Móricz Zsigmond által írt levelek szókészlete

Móricz Zsigmondnak írt levelek szókészlete

A projektről

Amint az ábrákon látható, a levelezést két nagy csoportra osztottuk. Az egyik halmazt a Móricz Zsigmond által írt 498 levél alkotja, a másikat pedig az írónak szóló 1024 küldemény. A kétirányú levelezés szétválasztása azt a célt szolgálta, hogy megvizsgáljuk, Móricz levélírói szóhasználata mennyiben különíthető el a mások által írt levelekben olvasható általános, korszakra jellemző szókészlettől.

A vizualizációk a Voyant Tools eszközzel készültek. A táblázatban szereplő szavakat az adott szó gyakoriságának megfelelő számban töltöttük be az eszköz erre alkalmas mezőjébe. A megjelenített szavak mennyisége a bal alsó sarokban lévő Terms melletti csúszkán állítható 25-től 500-ig. A jobb felső sarokban, a kék négyzetekre kattintva további vizualizációs eszközöket lehet elérni a Visualisation Tools almenüből. A Corpus Tools Terms almenüjéből elérhető a vizualizáció alapját képező szavak listája is.

A szókészlet tisztításának szempontjai

A szófelhő elkészítéséhez először is szükségünk volt egy gyakorisági listára, amely az e-magyar digitális nyelvfeldolgozó rendszer segítségével készült el. A rendszer először lemmatizálta, vagyis “leszótövezte” a levelekben előforduló összes szót, majd az így létrejött szótövekből több mint 12.000 darabos szólistát állított elő. Ezután következett a manuális válogatás, amihez különböző szempontokat kellett meghatároznunk. Először is bizonyos előfordulási esetszámnál meghúztuk a határt, hogy a felhőben csak a legalább tízszer szereplő szavak legyenek láthatóak. Majd a korabeli nyelvhasználat szempontjából kevésbé releváns elemeket kihúztuk: írásjeleket, számokat, számneveket, névelőket, névutókat, névmásokat, határozószókat, kötőszavakat, tulajdonneveket, létigéket. Nem kerültek be a vizualizációba azok a rövidítések sem, amelyeknek nem volt egyértelmű a jelentésük. Összevontuk viszont azokat a szavakat, amelyeket biztonsággal be tudtunk azonosítani. Mivel kizárólag a szóhasználat és nem a stilisztikai diverzitás megmutatása volt célunk, a régies írásmódokat összevontuk a mai formával (pl. deczember → december). Az így összeállított lista már alkalmassá vált arra, hogy olyan szófelhőt hozzunk létre, amely az emberi szem számára átlátható, illetve amelyből releváns következtetések vonhatóak le, akár a nyelvhasználat, akár a levelezések tematikája szempontjából.

Források, linkek