Móricz Zsigmond műveinek hálózatos megjelenítése / Network display of the novels of Zsigmond Móricz

Abstract

Continuing the stylometric study of Móricz's novels, we have approached the interpretation of the oeuvre with new visualization methods (consensus tree and consensus network). In our experiment, we seek answers to the question of whether the chronology of the publication of the texts can be detected and whether new connections in the network become visible.

Since maximizing reliability and filtering out coincidences is an existing problem in stylometry, a representation method was developed that can visualize multiple measurements on a single plot: a consensus tree effectively summarises the results of a series of clusterings into a single figure.

In contrast to the previously made cluster analysis, the consensus tree [see Figure 2.] shows less distance between texts, but it is possible to observe groups of texts that are more closely related to each other. The novels are divided into three broad groups in the consensus tree: the early novels, the works of the 1920s and the late novels. The clustering of the series has thus resulted in a chronology similar to the dendrogram [see Figure 1.].

In addition to generating a consensus tree, the measurement produces a database showing the relationship of texts to each other based on a given set of features. This database was imported into the Gephi software and displayed as a network [see Figure 3.]. The network now shows not only the groups of texts that are stylometrically close to each other but also all the connections of each text.

The strength of the connection is indicated by the thickness of the edges and the distance between the nodes. The closer two points are to each other and the thicker the edge between them, the more the novels are stylometrically connected. The number of connections increases with the size of the node that represents the novel. The colours indicate the clusters that show closer stylometric similarities with each other.

A kutatásról

A Móricz-regények stilometriai vizsgálatát folytatva, újfajta módszerekkel közelítettünk az életmű értelmezéséhez. Kísérletünkben továbbra is arra kerestük a választ, hogy kimutatható-e a szövegek publikálásának időrendje, megcélozható-e valamiféle korszakolás, láthatóvá válnak-e eltérések vagy új összefüggések Móricz regényeinek hálózatában?

A vizsgált szövegkorpusz 30 regényből áll, amelyeket a Magyar Elektronikus Könyvtár szolgáltatásból értünk el. A regények között előzetesen három kategóriát állítottunk fel: az első kategóriába a 10-es évek regényei tartoznak, a másodikba a 20-as években, a harmadikba pedig a kései, 30-40-es években kiadott művek kerültek.

Vizsgálatunk első lépéseként újra elvégeztük a klaszteranalízist, módosított paraméterezéssel, hogy megnézzük, az eredmény mennyiben fog eltérni a korábbi következtetéseinktől. Ennél az elemzésnél a 3000 leggyakoribb szó-bigramot (tehát két egymás után következő lexémát) vizsgáltuk a szövegekben, illetve 20%-os cullingot állítottunk be, ami azt jelenti, hogy csak azok a szó-bigramok kerültek bele az elemzésbe, amelyek a szövegek 20%-ában jelen vannak. A használt távolságmérték a szövegvizsgálatokra fejlesztett Eder deltája volt.

Bootstrap Themes
            a 3000 leggyakoribb bigram Classic deltatájval mért dendrogramja

A vizsgálat eredményei módosított paraméterekkel sem mutattak eltérést a korábbi elemzésünkhöz képest: a szövegek nagyrészt kronológikus sorrendben klasztereződnek két nagy ágra, ahol a határvonal a 20-as évek regényeinél húzódik meg.

Következő lépésként új stilometriai eszközöket vontunk be a vizsgálatunkba. Mivel a megbízhatóság maximalizálása és a “véletlenek” kiszűrése egy létező probléma a stilometriában, egy olyan ábrázolási mód került fejlesztésre, amely több mérést képes egy ábrán vizualizálni. A konszenzusfa gyakorlatilag egy sorozatnyi klaszterezés eredményeit összegzi egy ábrába, jelen esetben a beállított paramétereink szerint, a leggyakoribb 100–1000 szavas tartományban vizsgált a szoftver, szintén 20%-os cullinggal. Mivel a szöveghossz közötti eltérések torzíthatják az eredményt, szükséges volt az elemzéshez a mintavételezésre, ami annyit jelent, hogy a textusokból random 15000 szó hosszúságú részleteket vetett össze a szoftver. Az iterált mérés során a szógyakorisági lista hosszúsága változott: először a 100 leggyakoribb szó-bigramig (tehát két egymás után következő szóig), majd a 200 leggyakrabban előfordulóig, el egészen az 1000 leggyakoribb egymást követő szóig vizsgálta a részleteket az algoritmus. Ezen kívül meghatároztuk a konszenzusküszöböt is, tehát azt, hogy az elvégzett mérések hány százalékában jelenjen meg a hasonlóság ahhoz, hogy az algoritmus figyelembe vegye azt. Mi egy közepes erősségű, 0,5-ös konszenzusküszöböt állítottunk be.

Bootstrap Themes
          a 100-1000 leggyakoribb bigram Eder deltájával mért konszenzusfája

A klaszteranalízissel ellentétben a konszenzusfán a szövegek egymáshoz való távolsága kevésbé olvasható le, viszont jól megfigyelhetőek az egyes szövegcsoportok, melyek szorosabb kapcsolatot mutatnak egymással, illetve láthatóvá válnak azon szövegek, amelyek nagyobb stílusbeli eltérést mutatnak a többitől.

A Móricz-regények a konszenzusfán is három nagy szövegcsoportra oszlanak: a korai, a 20-as évekbeli és a kései regényekre. A sorozatnyi klaszterezés tehát a dendrogramhoz hasonlóan egyfajta kronológiát eredményezett a konszenzusfán. A dendogramhoz hasonlóan, a Jószerencsét itt is a korai regényekhez sorolódik, a Házasságtörés viszont már a 20-as évek csoportjába kerül. Móricz a Jószerencsét (1923) szövegét 1914-ben folytatásokban kezdte el közölni a Nyugatban, majd az első világháború kitörése megszakította a szövegfolyamot, egyáltalán nem meglepő, hogy stilometriai értelemben a szöveg a ‘10-es években kiadott szövegek közé sorolódik. A háború alatt főként rövidebb műfajokban közöl írásokat, ez az időszak leginkább az új forma, az új téma keresésének idejeként jellemezhető. A stilometriai kísérlet tehát kimutatta, hogy a Jószerencsét nyelvhasználati szempontból a korai írói korszakhoz sorolható, emellett pedig azt, hogy a világháború lezárását követően, hozzávetőlegesen a ‘20-as évek környékére már egy másik írói korszak kezdete tehető.

Mivel azt feltételezzük, hogy ez a változás egy sokkal rétegzettebb, komplexebb folyamat, folytatni szerettük volna a regények vizsgálatát más beállítási paraméterekkel és vizualizációkkal. Célunk a művek mélyebb, nyelvhasználati összefüggésrendszerének, hálózatosságának megmutatása volt.

A konszenzusfa előállítása mellett a mérés egy olyan adatbázist eredményez, amelyen a megadott számú jellemzők alapján a szövegek egymáshoz való viszonya jelenik meg. Ezt az adatbázist a Gephi szoftverbe importálva egy hálózatos ábrán jelenítettük meg. A hálózaton már nemcsak az egymáshoz közeli szövegcsoportok láthatóak, hanem az egyes szövegek összes kapcsolata és azok erőssége is megjelenik.

Bootstrap Themes
        a 100-1000 leggyakoribb bigram Eder deltájával mért konszenzushálója

A kapcsolat erősségét az élek vastagsága valamint a csomópontok közötti távolság jelöli. Minél közelebb van egymáshoz két pont, és minél vastagabb közöttük az él, annál szorosabban kapcsolódik egymáshoz a két regény stilometriailag. A kapcsolatok számának megfelelően pedig növekszik a regényt jelző csomópont mérete is. A színek az egyes klasztereket jelölik, vagyis azon regények csoportját, amelyek szorosabb stílusbeli hasonlóságot mutatnak egymással.

Ennek alapján a hálózatos megjelenítés is azt mutatja, hogy a regények nagyrészt korszakok szerint különülnek el egymástól. A lila klaszterbe a korai regények kerültek: főként a Sárarany, Kerek Ferkó, Jószerencsét, Fáklya, Isten háta mögött mutatnak szoros kapcsolatot egymással. A kék klaszterbe a 20-as évek regényei közül a Házasságtörés, Úri muri, Kivilágos kivirradtik került, viszont az is megfigyelhető, hogy egyes művek inkább későbbi regényekkel mutatnak szorosabb rokonságot, ilyen a Pillangó (1925) és a Légy jó mindhalálig (1920). A harmincas években megjelent művek, az Életem regénye, Míg új a szerelem, Rab oroszlán, Forr a bor, Rokonok, A bál, Az asszony beleszól a piros színű klaszterbe tartoznak. A szintén harmincas években kiadott Betyár (1936) és Boldog ember (1935) szorosabb kapcsolatot mutatnak a későbbi, Rózsa Sándor-regényekkel.

A témában írt teljes tanulmány: Makkai T. Csilla, Varga Emese: „Csomópontok és metszetek: Móricz Zsigmond műveinek hálózatos megjelenítése - Esettanulmány. ” Szabolcs-szatmár-beregi szemle, 57. évf. 3. sz., 2022. 54-60. Elérés 2023.06.29.