Automatikus névfelismertetés szépirodalmi szövegkorpuszokon

Cél

A PIM-ben jelenleg elérhető és a jövőben feldolgozni tervezetthez hasonló szövegek esetében megvizsgáljuk annak a lehetőségét, hogyan tudjuk a nevek felismertetését automatikus eszközökkel megtámogatni.

Források

Ehhez a különféle műfajokat reprezentáló tesztkorpuszt kell összeállítanunk.

A szövegekben kézzel kell bejelölni a neveket. Ennek a munkának a haladási tempója kb. 10.000 token/nap. Érdemes minden szöveget két annotátorral annotáltatni, és közöttük egyetértést számolni, amit 100% felé érdemes közelíteni.

DIA szövegek közül: minden műfajból (kivéve rajz és bibliográfia) 3000 token = összesen 33.000 token
- fiktív
  - dráma
  - próza
  - regény
  - vers
- nem fiktív
  - életrajz
  - esszé
  - interjú
  - levél
  - napló
  - riport
  - szociográfia
Móricz levelezés: 3.000 token
MEK: két olyan műfajból, ami a DIA-ban is van, 3-3.000 token = összesen 6.000 token

Konkrét forrásokat lásd a csatolmányok alatt.

A válogatás szempontjai

A DIA-ban lekérdezhető 13 műfaj közül a rajzot és a bibliográfiát kihagytam. A maradék 11 műfajhoz műfajonként kb. 3000 tokennyi szöveget gyűjtöttem. A műfajokat fiktív és nem fiktív csoportokra osztottam.

A válogatás szempontjai voltak:

Egy szerzőtől lehetőség szerint csak egy mű legyen. Ez néha kettő lett, de ilyen esetekben az egyes műfajokhoz kevés szöveget választottam egy szerzőtől.
Minden műfajhoz legalább kettő forrás legyen.
Legyen a választott művek között magyarul született és fordítás is.
Nem teljes műveket válogattam, hanem nagyobb művek kisebb részeit. Mindig saját címmel ellátott, lekerekített, önmagában is megálló részleteket választottam, nem random módon egy mű közepéből. A részletek saját címét jelöltem a 'Szerző: mű' oszlopban.
A választott szövegek mind a 20. századból származnak.

A MEK-ből olyan műfajú szövegeket válogattam, amely műfajok a DIA-nál is szerepeltek. Egy fiktív és egy nem fiktív műfajt választottam. Ugyanúgy műfajonként kb. 3000 tokennyi szöveget gyűjtöttem. Az összetett keresésben a 'Dokumentumtípus' keresőmezőbe írtam be, hogy 'riport', illetve 'regény'.

A válogatás szempontjai ugyanazok voltak, mint a DIA esetében, plusz:

A választott mű legyen elérhető valamilyen szöveges formátumban (rtf).

Feldolgozás

az xml-ből kinyerni a sima szöveget → UTF-8 sima szöveg
végigzavarni az emtsv-n: tok, mor, pos, ner, bert-ner
leelemeztetni a huspacy-val is

Kézi annotálás

WebAnno
az annotálás során a tag-for-tagging elvet lenne jó követni, mert
- a névfelismerés elsődleges célja az entitásazonosítás, vagyis hogy a szövegekben előforduló entitásokat egy névtér szereplőivel azonosítsák, vagyis névtér ID-kat rendeljenek hozzájuk;
- a Móricz-levelekben szereplő névjelölés már így van
az annotálás során a tag-for-meaning elvet lenne jó követni, mert
- a névfelismerő rendszerek olyan korpuszokon lettek tanítva, amelyek ezt követik, vagyis mindig hibaként fog kijönni a kiértékelésnél, ami nem igazán az;
- a névfelismerő rendszerek ilyen korpuszokon lesznek tanítva a későbbiekben is, vagyis érdemes erre felkészülni
mivel mindkét elv jó lenne, ezért igyekszünk ötvözni a kéttőt, és legalább a gyakori típusoknál mindkettőt jelölni olyan címkékkel, amelyek jelzik ezt a jelenséget, és mindkét irányba könnyen átalakíthatók, pl. ORG:LOC
csak akkor jelöljük a metonimikusságot, ha a tárgyalási univerzumban marad a teljes referenciaátvitel
minden szöveget két annotátornak adunk ki
annotátorok közötti egyetértést számolunk → a kérdéses eseteket megbeszéljük, javítjuk
fixáljuk a gold standardet

Kiértékelés

a gold standardhoz hasonlítjuk az egyes taggerek kimenetét → kiértékelés
BIE1-re konvertálok mindent, abban értékelek ki
a tag-for-meaning miatti címkéket át kell alakítani
kiértékelni: bert-ner (embert), bert-ner (hubert), ner, huspacy
eredmények: a PIM NER eval google spreadsheetben
egyéb kiértékelés: az eleve névtageket tartalmazó szövegek esetében a táblázat egy újabb oszlopába átvezetni az x(ht)ml fájlokban jelölt névelemeket → összehasonlítani