Munkaterv
Kiss József teljes levelezését több intézmény őrzi. Első lépésként csak a PIM-ben található anyagot digitalizáljuk, ezután érdemes kooperálni a többi intézményel.
A PIM-ben őrzött levelezést lépcsőzetesen fogjuk feldolgozni, hogy a nagyközönség számára minél előbb elérhetővé váljon, s minden lépcsőfok más-más szinten nyújt hozzáférést, segítséget a levelek olvasásához, kutatásához.
1.0 Betűhív átirat
A beszkennelt leveleket kétrétegű PDF formátumban közöljük, azaz látható lesz a digitalizált kézirat (facsimile), és mögötte áll a kereshető szövegréteg.
A metaadatok rögzítése a Huntékában történik.
2.0 Forráskiadás
A leveleket TEI-formátumban kódoljuk, böngészőben megjelenítjük.
Külön olvasható lesz az átírt szöveg is, jelölésekkel, textológiai jegyzetekkel ellátva. A cél forráskiadás szintű feldolgozás.
Ezen a szinten lehetővé válnak nem csak a szabadszavas, hanem egyéb keresési lehetőségek.
A metaadatok a TEIHeader-ben lesznek tárolva.
3.0 Tudományos kiadás
A levelek szövegében jelöljük a személyneveket, földrajzi neveket és egyéb a feldolgozás során fontosnak ítélt kategóriákat (pl. műcím), amelyeket egyéni azonosítókkal, hivatkozásokkal látunk el, hogy az olvasó közvetlen információkat szerezhessen róluk.
A szükséges helyeken tárgyi magyarázatokat, az értelmezéshez szükséges jegyzeteket adunk.
Kiss József-levelezés 1.0A levelezést két részletben dolgozzuk fel:
-
Kiss József által írt levelek időrendben
-
Kiss Józsefnek írt levelek időrendben
Munkafolyamat:
-
Verziókövető rendszer felállítása: A teljes anyagot a szkenneléstől a publikálásig egy helyen kell tartani, hogy mindig egyben hozzáférhető és kinyerhető legyen. A verziókövetéssel követni tudjuk az egyes munkafolyamatok és szintek során bekövetkezett változásokat, a hibák könnyebben javíthatóak lesznek.
-
Adminisztrációs felület kialakítása: A munkafolyamat egyes lépéseit, az ezzel kapcsolatos kérdéseket, feladatokat stb. a Trello ezen projektre létrehozott felületén dokumentáljuk.
-
Szkennelés: A szkennelés-mentések helyét, módját, mappastruktúrát, fájlelnevezési konvenciót lásd a csatolmányok alatt.
-
Metaadatok felvitele: Huntékába a megszokott módon.
-
Átírási szabályok lefektetése: A cél betűhív átirat létrehozása. Ennek megfelelően, az anyag speciális jellemzőit figyelembe véve meghatározzuk az átírási szabályokat (pl. törlések jelölése, emendálás stb.) - lásd a csatolmányok alatt.
-
Szöveg szegmentálása, átírása: A levelek átírását vagy gépeléssel, vagy szövegfelismertetéssel lehet megoldani. A kézírás felismertetése nem evidens feladat, mindig az adott anyagtól függ, hogy érdemes-e szoftvert használni, vagy gyorsabb megoldás a gépelés. (Jelenleg folyik a nyelvi modell építése, amellyel a tervek szerint automatikusan felismertethető lesz a kézírások nagy része.)
-
A beszkennelt képeket feltöltjük a Transkribus-ra, a projektnek létrehozott gyűjteménybe.
-
Ezután kezdődhet a szegmentálás és az átírás. Transkribus-ban folyó munka leírását lásd a csatolmányok alatt.
-
-
Korrektúra: A szöveg átírása után korrektúrázni kell, hogy az adott elütéseket, félreolvasásokat javíthassuk. Ez a munka szintén a Transkribus-ban történik.
-
Ellenőrzés (filológiai+technikai): Szintén a Transkribus-ban történik.
-
Exportálás: A Transkribus lehetővé teszi a létrehozott szöveg kétrétegű PDF-ben, illetve TEI XML-ben való exportálását is, ami megoldja az 1.0 és a 2.0 közötti átjárhatóságot. A létrehozott PDF és TEI fájl elnevezése azonos lesz a szkennelt kép(ek) mappájának nevével. A betűhív átirat elkészültével létrejön egyrészt egy kétrétegű kereshető PDF, másrészt egy nyers TEI fájl, ami a 2.0-s munka kiindulópontja lesz.
-
Publikálás: Kétrétegű PDF-formátumban publikálhatóvá válik a levél. A közzététel az Opac-on fog történni.
A levelezést két részletben dolgozzuk fel:
-
Kiss József által írt levelek időrendben
-
Kiss Józsefnek írt levelek időrendben
Munkafolyamat:
-
Szabályok lefektetése: Meghatározzuk a kódoláshoz szükséges TEI-elemkészletet, a textológiai, filológiai jegyzetek mélységét és mikéntjét. Ezeket lásd lásd a Kiss József-levelezés átírási szabályok c. mellékletben a csatolmányok alatt.
-
Az átírt levelek kódolása TEI XML-ben: A levelek kódolása Oxygen-ben történik (a megfelelő Oxygen-framework használatával).
-
Metaadatok, header kialakítása TEI XML-ben
-
Ellenőrzés: A kódolt szöveg ellenőrzése Oxygen-ben, a projektre kialakított framework-ben történik. Validálunk egy megegyezés szerinti általános TEI-sémával (dtd, rng stb.), illetve Schematron-szabályokkal, ami nagyban felgyorsítja a javítást.
-
Szakértői munka: A kiadás lektorálása külső szakértő bevonásával történik.
-
Megjelenítés, publikálás: A dHUpla felületén.
-
Keresési lehetőségek kialakítása: Facettált keresés.
Ezen a szinten nem érdemes levélíró szerint két csoportba osztani az anyagot, mivel a személynevek, utalások felderítéséhez inkább az időrendben való haladás nyújt segítséget.
Munkafolyamat:
-
Személynevek, földrajzi nevek, intézménynevek felderítése szoftveres segítséggel (ezek ellátása egyedi azonosítókkal, normalizált nevekkel, megfelelő hivatkozásokkal)
-
Egyéb kategóriák jelölése (pl. műcím, dátum)
-
Tárgyi jegyzetek készítése
1–3.: A munka külső szakértők bevonásával történik, hogy háttértudásukkal segítsék a minőségi szöveg létrejöttét.
-
Megjelenítés
Egyéb tervek
Csatlakozás a CorrespSearch-projekthez
Olvasóbarát változat
Idegennyelvű leveleknél fordítás készítése