Cél
Források
-
DIA szövegek közül: minden műfajból (kivéve rajz és bibliográfia) 3000 token = összesen 33.000 token
-
fiktív
-
dráma
-
próza
-
regény
-
vers
-
-
nem fiktív
-
életrajz
-
esszé
-
interjú
-
levél
-
napló
-
riport
-
szociográfia
-
-
-
Móricz levelezés: 3.000 token
-
MEK: két olyan műfajból, ami a DIA-ban is van, 3-3.000 token = összesen 6.000 token
Konkrét forrásokat lásd a csatolmányok alatt.
A válogatás szempontjai
A DIA-ban lekérdezhető 13 műfaj közül a rajzot és a bibliográfiát kihagytam. A maradék 11 műfajhoz műfajonként kb. 3000 tokennyi szöveget gyűjtöttem. A műfajokat fiktív és nem fiktív csoportokra osztottam.
A válogatás szempontjai voltak:
-
Egy szerzőtől lehetőség szerint csak egy mű legyen. Ez néha kettő lett, de ilyen esetekben az egyes műfajokhoz kevés szöveget választottam egy szerzőtől.
-
Minden műfajhoz legalább kettő forrás legyen.
-
Legyen a választott művek között magyarul született és fordítás is.
-
Nem teljes műveket válogattam, hanem nagyobb művek kisebb részeit. Mindig saját címmel ellátott, lekerekített, önmagában is megálló részleteket választottam, nem random módon egy mű közepéből. A részletek saját címét jelöltem a 'Szerző: mű' oszlopban.
-
A választott szövegek mind a 20. századból származnak.
A MEK-ből olyan műfajú szövegeket válogattam, amely műfajok a DIA-nál is szerepeltek. Egy fiktív és egy nem fiktív műfajt választottam. Ugyanúgy műfajonként kb. 3000 tokennyi szöveget gyűjtöttem. Az összetett keresésben a 'Dokumentumtípus' keresőmezőbe írtam be, hogy 'riport', illetve 'regény'.
A válogatás szempontjai ugyanazok voltak, mint a DIA esetében, plusz:
-
A választott mű legyen elérhető valamilyen szöveges formátumban (rtf).
Feldolgozás
-
az xml-ből kinyerni a sima szöveget → UTF-8 sima szöveg
-
végigzavarni az emtsv-n: tok, mor, pos, ner, bert-ner
-
leelemeztetni a huspacy-val is
Kézi annotálás
-
WebAnno
-
az annotálás során a tag-for-tagging elvet lenne jó követni, mert
-
a névfelismerés elsődleges célja az entitásazonosítás, vagyis hogy a szövegekben előforduló entitásokat egy névtér szereplőivel azonosítsák, vagyis névtér ID-kat rendeljenek hozzájuk;
-
a Móricz-levelekben szereplő névjelölés már így van
-
-
az annotálás során a tag-for-meaning elvet lenne jó követni, mert
-
a névfelismerő rendszerek olyan korpuszokon lettek tanítva, amelyek ezt követik, vagyis mindig hibaként fog kijönni a kiértékelésnél, ami nem igazán az;
-
a névfelismerő rendszerek ilyen korpuszokon lesznek tanítva a későbbiekben is, vagyis érdemes erre felkészülni
-
-
mivel mindkét elv jó lenne, ezért igyekszünk ötvözni a kéttőt, és legalább a gyakori típusoknál mindkettőt jelölni olyan címkékkel, amelyek jelzik ezt a jelenséget, és mindkét irányba könnyen átalakíthatók, pl. ORG:LOC
-
csak akkor jelöljük a metonimikusságot, ha a tárgyalási univerzumban marad a teljes referenciaátvitel
-
minden szöveget két annotátornak adunk ki
-
annotátorok közötti egyetértést számolunk → a kérdéses eseteket megbeszéljük, javítjuk
-
fixáljuk a gold standardet
Kiértékelés
-
a gold standardhoz hasonlítjuk az egyes taggerek kimenetét → kiértékelés
-
BIE1-re konvertálok mindent, abban értékelek ki
-
a tag-for-meaning miatti címkéket át kell alakítani
-
kiértékelni: bert-ner (embert), bert-ner (hubert), ner, huspacy
-
eredmények: a PIM NER eval google spreadsheetben
-
egyéb kiértékelés: az eleve névtageket tartalmazó szövegek esetében a táblázat egy újabb oszlopába átvezetni az x(ht)ml fájlokban jelölt névelemeket → összehasonlítani