A magyar hírportálok orosz–ukrán háborúról szóló cikkeinek szóhasználata

Idővonal

Interaktív

A szókészletek további böngészéséhez kattints ide!

Statisztika

A különböző szempontok alapján összeállított diagramokat itt találod.

A projektről

Az orosz–ukrán háború kitörése kapcsán 2022. február 21-étől az Országos Széchényi Könyvtár Webarchiválási Osztálya megkezdte a hazai és a határon túli online sajtóban megjelenő ukrajnai hírek lehető legszélesebb körű mentését. A háborús témával foglalkozó hírportálok kezdetben 115 tételből álló kiinduló címlistája mára 413 tételre nőtt, a kollégák folyamatos gyűjtési munkájának, illetve a meghirdetett közösségi gyűjtésnek köszönhetően. Emellett megkezdődött a mesterséges intelligencia-alapú eszközök integrációjának kidogozása a magyar webtér archiválásának munkafolyamatába. Az esemény-alapú webaratás (jelenleg zárt archívum) két célja a hosszútávú megőrzés és a kutathatóvá tétel. Ez utóbbi érdekében a Digitális Bölcsészeti Központ a hetente (vagy extra aratások beiktatásával még gyakrabban) mentett webes tartalmakból tematikus szövegkorpuszokat épít, majd a legkülönfélébb digitális bölcsészeti eszközökkel elemzi azokat. A projekt első szakaszának eredménye az ukrán háborúval foglalkozó online magyar hírek szóhasználatának változását feltáró kutatás, illetve annak vizualizációja.

Munkafolyamat

  1. A webarchiválásra alkalmas WARC fájlokból kinyerjük a HTML oldalakat.
  2. A HTML fájlokból kinyerjük a releváns szöveges tartalmat.
  3. A kinyert szövegállományt megtisztítjuk.
  4. Az előállt szövegkorpuszt számítógépes nyelvészeti eszközökkel elemezzük.
  5. A nyelvi elemzés alapján létrehozzuk a szótövek gyakorisági listáját, azaz kinyerjük a szükséges adatokat (szótövek, szófaj, előfordulási szám).
  6. A gyakorisági listát megtisztítjuk (irreleváns szófajok: névelő, névutó, számnév, névmás, kötőszó, határozószó; írásjel és egyéb szemét kiszűrése).
  7. A listát 2000 szóra redukáljuk.
  8. A listát megtisztítjuk stopszólistával (irreleváns szavak kiszűrése) és minimális szinten manuálisan.
  9. A listát az adott célnak megfelelően redukáljuk, majd az előállt statisztikai adatokat adatvizualizációs eszköz paraméterezésével jól értelmezhető módon megjelenítjük.
  10. Idővonalat készítünk, amelyen láthatóvá válik a szókészlet változása.

A magyar hírportálok ukrán háborúról szóló cikkeinek szókészlete időrendben

2022. február 21.

2022. február 28.

2022. március 7.

2022. március 14.

2022. március 21.

2022. március 22. (extra)

2022. március 28.

2022. április 5.

2022. április 11.

2022. április 18.

2022. április 25.

2022. május 02.

2022. május 09.

Források, linkek