A Library of Congress javaslata a megőrzési formátumokra

A digitális megőrzés egyik fontos szempontja a hosszútávú fenntarthatóság, amelynek az egyik legalapvetőbb követelménye a stabil, szabványos formátumok használata. Ez teszi lehetővé, hogy akár hosszú évek múltán is használhatók legyenek a megőrzött fájlok, a jövő generációi is képesek legyenek azokat megnyitni, használni.

Az USA-beli Kongresszusi Könyvtár (Library of Congress, rövidítve LoC) a GLAM-szektor (Galleries, Libraries, Archives, Museums – galériák, könyvtárak, archívumok, múzeumok) egyik nagy tekintélyű intézménye, amelynek ajánlásai sok területen standardnak számítanak a szakmában. Hozzájuk fűződik többek között a BIBFRAME, az EAD, a MARC, a METS, a PREMIS, amelyek zömét használja a Petőfi Irodalmi Múzeum, valamint a Digitális Bölcsészeti Központ is.

A LoC a héten adta ki a legújabb ajánlását a megőrzési formátumokra, amely esemény azért jelentős, mert ez az első kiadása az ajánlások 2.0 főverziójának. Hetedik éve jelenik meg (2014 óta), minden évben finomodik, elsősorban a digitális megőrzésre vonatkozó ajánlások tekintetében. A legújabb változatban három új kategóriát vezettek be (3D, georeferencia, kották). Dokumentumuk az ugyancsak általuk felállított fenntarthatósági kritériumoknak próbál megfelelni (hozzáférhetőség, elterjedtség, átláthatóság, dokumentáció, függetlenség, szabadalommentesség, technikai védettség).

Az ajánlás így már 10 féle objektumtípus megőrzésére koncentrál (szöveges tartalmak, állóképek, mozgóképek, hanganyagok, kották, adathalmazok, georeferencia-adatok, 3D-objektumok, szoftver és videojátékok, webarchívumok). Minden esetben külön tárgyalja digitális objektumokra vonatkozó javaslatokat, ezek közül a legfontosabbak a technikai és a formátumokra irányuló ajánlások. Mivel a PIM DBK legfontosabb feladata a szöveges tartalmakra irányuló ajánlások kidolgozása és gyakorlatba ültetése, ezért a továbbiakban erről szólunk.

A digitális szöveges objektumok esetében a LoC ajánlása szerint alapvető technikai feltétel a szabványos karakterkódolás (a legjobb az UTF-8 vagy UTF-16). A formátumok tekintetében kétféle megoldást javasol. Az XML-t tartja a legjobbnak, viszont azon belül meglepő módon az EPUB3-at, annak hiányában a BITS 2.0-t, illetőleg harmadik lehetőségként egyéb formátumokat, pl. TEI-XML-t. A másik fő lehetőség az oldalelrendezést megőrző (page-layout) formátumok használata (különféle PDF-formátumok). Ezek közül a PDF/UA-1 és a PDF/A formátumokat tartja a legjobbnak.

Ha ezek nem állnak rendelkezésre, ill. nem is állíthatók elő, akkor elfogadhatónak tart egyéb formátumokat is. Ezek között szerepelnek egyéb kódolt (annotált) szövegek (pl. XHTML, SGML), más PDF-fajták, vagy akár szövegszerkesztővel előállított fájltípusok is (RTF).

 

Kalcsó Gyula