The visualisation shows a stylometric analysis of Zsigmond Móricz's novels. The aim of the study was to find out whether stylometry can be used to distinguish possible literary periods and to observe changes in the oeuvre.
In stylometric analyses, texts are compared on the basis of quantified linguistic features and various distance measures. The analysis is based on frequency values of linguistic features, which are analysed using distance measures, so that the relationship between texts is determined by the distance between them.
Since one of the questions of the study was whether the works would be separated chronologically, we indicated the titles of the novels along with the publishing date. The colours represent three cathegories: the first group indicates the early novels (red), the second group include the middle period - texts from the 1920s (green) and the third group include the late works from the 1930s and 1940s (blue).
On the dendrograms we can see that the early works and the late works are in a separate cluster, mostly close to each other. Some works from the middle of the oeuvre are appearing in both of the clusters.
On the third figure, we used the oppose function, which is a contrastive text analysis method used to compare two text corpora. The function produces two word lists on a graph, one containing the explicitly preferred words of the first corpus compared to the other corpus. The other word list contains the explicitly avoided words of the first corpus relative to the second corpus. For this experiment, we have divided our corpus into two parts based on our results so far, i.e. early and late works, where the epoch boundary is drawn in the mid-1920s.
Az OSZK Digitális Bölcsészeti Központban végzett kutatásokhoz kapcsolódva, elkészítettük Móricz Zsigmond regényeinek stilometriai vizsgálatát, mely a korpusz stílusának statisztikai alapú elemzését jelenti. Vizsgálatunkban arra voltunk kíváncsiak hogy a stilometriában rejlő lehetőségek alapján, elkülöníthetők-e az esetleges írói korszakok, megfigyelhető-e az életmű változása.
A stilometriai elemzésekben a szövegek összehasonlítása a számszerűsített nyelvi jellemzők és különféle távolságmértékek alapján történik. A vizsgálat során a nyelvi vonások gyakoriságértékeit kapjuk meg, melyeket távolságmértékekkel elemzünk, így a szövegek egymáshoz való viszonyát a köztük lévő távolság határozza meg.
A korpusz összeállításában elsődleges szempont volt, hogy elektronikusan elérhető, letölthető, szerkeszthető szövegekből épüljön fel, ezért elsősorban a Magyar Elektronikus Könyvtárban található regényekkel dolgoztunk, így 29 Móricz-regényt vizsgáltunk.
Mivel az volt az egyik kérdésünk, hogy időrend szerint különülnek-e el a regények, regénycímeket a keletkezési idejükkel együtt neveztük el. A méréseink alapján létrejött ábrákon ezek szín szerint is kategorizálódtak: az első csoportba az 1908-as Pipacsok a tengeren és az 1910-es években született regények (piros), a második csoportba az 1920-as évek szövegei (zöld), a harmadik csoportba pedig az 1930-40-es évekbeli regények (kék) kerültek.
Minden mérésünket szó-bigramok (két egymást követő lexéma) és nem unigramok (egy szó) vizsgálatával végeztük, ugyanis az irodalmi szövegeken a szószerkezetek vizsgálata hatékonyabb módszer a szerzői stílus meghatározására. Mivel megkülönböztető jegyeket és nem hasonlóságokat szeretnénk kiszűrni, nem használtuk a cullingot, ami azt jelenti, hogy nem szűrtünk ki egyetlen szó-bigramot sem a szövegekből.
a 3000 leggyakoribb bigram Eder deltatájval mért dendrogramja
Az első ábrán a kifejezetten stilometriai szövegvizsgálatokra fejlesztett, Eder-féle deltával végzett vizsgálat látható. Megfigyelhető, hogy két nagyobb csoportba rendeződnek a szövegek, a korai és kései művekre, a korszakhatár pedig a 1920-as közepén húzódik meg. Az 1908 és 1923 között kiadott regények szorosan egymás mellett helyezkednek el, ugyanígy az 1930-as évek szövegei is egy nagyobb tömbbe rendeződnek. A boldog ember (1935) és az Árvácska (1941) című szövegek viszont középen helyezkednek el, és több rokonságot mutatnak a korai művekkel, mint a későbbiekkel. A móriczi írásmódra mindvégig jellemző az elhangzott és lejegyzett dialógusokból való építkezés, mely módszer végletekig vitt megtestesítője lett végül A boldog ember és az Árvácska. Az a tény, hogy a tárgyalt szövegek közelebb kerültek az életmű első szakaszában írt regényekhez, arra enged rákérdezni, hogy a korai művek érőteljesebben közvetítik-e a hangzó nyelvet, az élőbeszédet.
Emellett megfigyelhető még, hogy történelmi regények (Erdély-trilógia és Rózsa Sándor regények), szorosan illeszkedtek egymáshoz, melynek oka a létrehozott archaizáló nyelvben keresendő.
az 5000 leggyakoribb bigram Canberra távolságával mért dendrogramja
A következő vizsgálat egy másik távolságmetrikával, a ritkán használt szavakra érzékenyebb Canberra-távolsággal készült. Az első két méréssel összevetve látható, hogy a korszakolás ebben az esetben kevésbé sikeres. Az 1920-as években írt szövegek (Pillangó, Kivilágos kivirradtig, Jószerencsét, Úri muri, Légy jó mindhalálig) távolabb kerülnek egymástól és elvegyülnek az 1910-es és 30-as évek szövegei között. Feltételezhető, hogy ezek a leginkább regionális köznyelv regiszterében írt regények rugalmasabban sorolódnak egy-egy klaszter elemei közé, hiszen sokféle elemmel rokonítható tulajdonságokkal rendelkeznek. Bár a korai művek tematikailag eltérnek egymástól, más-más helyszíneket és társadalmi helyzeteket mutatnak be, hasonlóságuknak stilometriailag kimutatható gyakorisága rávilágít arra az írói stílusra, amely Móricz pályakezdő szakaszát átfogóbban jellemzi.
Oppose függvény – a Craig által kibővített Zeta attribúciós tesztjével végzett szólistái
Az oppose függvény egy kontrasztív szövegelemző módszer, amelyet két szövegkorpusz összehasonlítására használnak. A függvény két szólistát állít elő egy diagramon, az egyik az első korpusz kifejezetten preferált szavait tartalmazza a másik korpuszhoz képest. A másik szólista pedig az első korpusz kifejezetten került szavait tartalmazza a második szövegkorpuszhoz képest. Ehhez a kísérlethez a korpuszunkat az eddigi eredményeink alapján osztottuk két részre, vagyis a korai és a kései művekre, ahol a korszakhatár az 1920-as évek közepén húzódik meg. Mivel az Árvácska és A boldog ember a legtöbb esetben a korai művekhez sorolódott be, ezért a korpusz összeállításánál mi is a korai művek csoportjába tettük, az 1922-ben kiadott Tündérkert pedig az Erdély-trilógia részeként a második alklaszterbe került.
A mérésből láthatóvá válik, hogy az első csoportba tartozó művek preferált lexémái között gyakoriak a tájnyelvi elemek: ‘osztán’, ‘mán’, ‘vót’, ‘vón’, ‘vóna’, ‘eccer’, ‘azér’, ‘oszt’, ‘vótam’, ‘má’ stb. Ezek nem kizárólag tájnyelvi jellegük miatt érdekesek, hanem a hangzó nyelv móriczi alkalmazása szempontjából is, mely szövegépítkezésének egyik jellemzője.
A második csoport nem tartalmaz kifejezetten tájnyelvi, vagy a hangzó beszédre jellemző kifejezéseket, ellenben túlsúlyba kerülnek az anyagi világhoz, történelemhez, társadalomhoz kapcsolható kifejezések. Előfordulnak a ‘pénz’, ‘fejedelem’, ‘ország’, ‘kegyelmed’, ‘török’, ‘háború’, ‘erdélyi’, ‘nagyságod’, ‘császár’, ‘dolog’, ‘német’, ‘magyar’ kifejezések, melyek különböző szemantikai mezőkön helyezhetőek el, mégis összekapcsolhatóak. Mintha az írói tekintet a premier plánban készült portré műfajától eltávolodva, átkapcsolt volna a nagytotálban történő ábrázolásmódra.
A Móricz-korpuszon végzett stilometriai vizsgálatok releváns eredményeket hoztak a korszakolás tekintetében, emellett olyan irodalomértelmezési kérdéseket is felvetettek, amelyek újabb kutatások kiindulópontjai lehetnek.
A témában írt teljes tanulmány a Szépirodalmi Figyelő 2022/1-es számában jelent meg (Makkai T. Csilla, Varga Emese, Vétek Bence: Egy életmű metszete. Stilometriai vizsgálat Móricz Zsigmond regényein, Szépirodalmi Figyelő 2022/1., 71-85.).