E-mailek archiválása az OSZK Digitális Bölcsészeti Központjában

Az e-mail mint born digital (digitálisan született) objektum hosszú távú (köz)gyűjteményi megőrzése hazánkban egészen új szakterület. A hosszú távú megőrzés módszertanának részletes kidolgozása sürgető igény, hiszen már jelenleg is van feldolgozásra váró gyűjteményi tartalom, és a jövőben egyre növekvő intenzitással számíthatnak a LAM-szektor intézményei ilyen feladatokra.

A born digital témakörében már magyarul és idegen nyelven is elég széles körű szakirodalom hozzáférhető, ugyanakkor ezen belül az e-mailek kezelése még nemzetközi szinten is viszonylag kevéssé kidolgozott. Ebben éppen az utóbbi néhány évben történt előrelépés. Az Andrew W. Mellon Foundation és a Digital Preservation Coalition 2016-ban hozott létre egy kifejezetten az elektronikus levelek archiválásával foglalkozó munkacsoportot (Task Force on Technical Approaches for Email Archives), amely azzal a céllal jött létre, hogy segítse a nemzetközi gyűjteményi közösséget abban, hogy a tudományos és kutatási célokra megőrzendő elektronikus levelezést képes legyen kezelni. A munkacsoport létrehozta a The Future of Email Archives (Az e-mail archívumok jövője) című dokumentumot. Ez egy olyan koncepcionális és technikai keretet biztosít, amelyben az e-mailek megőrzésére irányuló jelenlegi erőfeszítések nem egymással versengő megoldásokként, hanem egy interoperábilis eszköztár elemeiként működhetnek. A DPC is megjelentette a munkacsoport eredményeit összegző Preserving Email c. kiadványának 2. kiadását, amely a 2011-es első kiadást váltotta fel.

A hazai eredmények közül a Digitális Bölcsészeti Központ által – akkor még a Petőfi Irodalmi Múzeumban – rendezett Born digital műhelykonferencia, valamint a Networkshop konferenciákon az utóbbi években munkatársaink által tartott tutoriálok (2021-es, 2022-es) emelhetők ki.

Az e-mail mint born digital objektum esetében egyszerre merülnek fel a digitális megőrzésre általában jellemző problémák, valamint a kifejezetten az elektronikus levelekre és levelezésekre vonatkozóak. Ezeket a problémákat legjobban a hosszú távú digitális megőrzésben általánosan használt OAIS-szabványnak való megfeleléssel lehet orvosolni. Az OAIS által előírt ún. információs csomagok (IP, Information Package) az archiválandó anyagon túl az értelmezhetőség fenntartásához elengedhetetlen leíró, technikai, strukturális, valamint a gyűjteményi folyamatokat dokumentáló adminisztrációs metaadatokat is tartalmazzák szabványos formátumokban. A referenciamodell három csomagja a SIP-, AIP- és DIP-csomag (Submission IP, Archival IP és Dissemination IP).

                    Az OAIS referenciamodell főbb elemei

Az OAIS-szabványnak és a Library of Congress által javasolt BagIt csomagformátumnak is megfelelő ígéretes, gyűjteményi e-mail-archiválási csomagolási eljárás a Mailbag.

                    A Mailbag-csomag felépítése

A Digitális Bölcsészeti Központ első, az OAIS-nak megfelelő összes információs csomagot a Mailbag ajánlásnak megfelelően létrehozó projektje a könyvtárosok és más közgyűjteményi szakemberek által 1997 óta használt Katalist levelezőlista több mint 43 ezer e-mailjének a gyűjteményi archiválása. Ennek keretében először a Stanfordi Egyetem ePADD nevű szoftverjének és más eszközöknek a segítségével végeztünk egy előrendezést, majd a RODA-In nevű szoftverrel a Mailbagnek megfelelő SIP-csomagok készültek. A csomagokat a RODA szoftver segítségével alakítottuk valódi gyűjteményi tartalommá (AIP-csomagokká), valamint kísérleti jelleggel a RODA segítségével ún. disszeminációs (azaz szolgáltatható, angol betűszóval DIP) csomagok is készültek.

                A Katalist levelezőlista anyaga az ePADD alkalmazásban

Kis statisztika:

43 250 levél

8658 e-mail cím

10 267 csatolmány

4749 kép – jpg (3391), png (1012), gif (297), bmp (29), jpeg (14), tif (6)

Főbb csatolmánytípusok a képeken kívül: pdf (1808), unidentified (1464), doc (1133), rtf (410), vcf (205), docx (191), xlsx (41), html (39), xls (34), dat (25), eml (15), emz (15), zip (13), htm (10), asc (4), pm$ (3), rar (3), odt (2), ppt (2), msg (2), ics (2), pptx (2), mso (2), txt (1), rft (1), exe (1), wmz (1), pps (1), mht (1).

Egy összesen 3,64 GB méretű MBOX-fájl

A szolgáltatási példányok hamarosan elérhetőek lesznek, itt megnézheted, hogy néz ki egy e-mail-ből készült HTML!