A magyar hírportálok orosz–ukrán háborúról szóló cikkeinek szóhasználata
Idővonal
Interaktív
A szókészletek további böngészéséhez kattints ide!
Statisztika
A különböző szempontok alapján összeállított diagramokat itt találod.
A projektről
Az orosz–ukrán háború kitörése kapcsán 2022. február 21-étől az Országos Széchényi Könyvtár Webarchiválási Osztálya megkezdte a hazai és a határon túli online sajtóban megjelenő ukrajnai hírek lehető legszélesebb körű mentését. A háborús témával foglalkozó hírportálok kezdetben 115 tételből álló kiinduló címlistája mára 413 tételre nőtt, a kollégák folyamatos gyűjtési munkájának, illetve a meghirdetett közösségi gyűjtésnek köszönhetően. Emellett megkezdődött a mesterséges intelligencia-alapú eszközök integrációjának kidogozása a magyar webtér archiválásának munkafolyamatába. Az esemény-alapú webaratás (jelenleg zárt archívum) két célja a hosszútávú megőrzés és a kutathatóvá tétel. Ez utóbbi érdekében a Digitális Bölcsészeti Központ a hetente (vagy extra aratások beiktatásával még gyakrabban) mentett webes tartalmakból tematikus szövegkorpuszokat épít, majd a legkülönfélébb digitális bölcsészeti eszközökkel elemzi azokat. A projekt első szakaszának eredménye az ukrán háborúval foglalkozó online magyar hírek szóhasználatának változását feltáró kutatás, illetve annak vizualizációja.
Munkafolyamat
A webarchiválásra alkalmas WARC fájlokból kinyerjük a HTML oldalakat.
A HTML fájlokból kinyerjük a releváns szöveges tartalmat.
A kinyert szövegállományt megtisztítjuk.
Az előállt szövegkorpuszt számítógépes nyelvészeti eszközökkel elemezzük.
A nyelvi elemzés alapján létrehozzuk a szótövek gyakorisági listáját, azaz kinyerjük a szükséges adatokat (szótövek, szófaj, előfordulási szám).
A gyakorisági listát megtisztítjuk (irreleváns szófajok: névelő, névutó, számnév, névmás, kötőszó, határozószó; írásjel és egyéb szemét kiszűrése).
A listát 2000 szóra redukáljuk.
A listát megtisztítjuk stopszólistával (irreleváns szavak kiszűrése) és minimális szinten manuálisan.
A listát az adott célnak megfelelően redukáljuk, majd az előállt statisztikai adatokat adatvizualizációs eszköz paraméterezésével jól értelmezhető módon megjelenítjük.
Idővonalat készítünk, amelyen láthatóvá válik a szókészlet változása.
A magyar hírportálok ukrán háborúról szóló cikkeinek szókészlete időrendben