időjárás 13°C Malvin 2022. október 1.
logo

Az egyik legnagyobb magyar szerkesztő levelezéséből tanul a kézirás-felismerő szoftver

Tóth Ida
2022.08.08. 18:30 2022.08.08. 18:39
Az egyik legnagyobb magyar szerkesztő levelezéséből tanul a kézirás-felismerő szoftver

Elkészült az első nyilvános magyar nyelvű számítógépes kézírás-felismerő modell. Ezzel egy lépéssel közelebb kerültünk ahhoz, hogy a közgyűjteményekben őrzött kéziratokat a széles közönség is megismerhesse, elolvashassa. Tegyünk erre próbát a XIX–XX. század fordulóján élt Kiss József költő, szerkesztő leveleivel!

Az Országos Széchényi Könyvtár nyolcadik emeletéig vitt annak a híre, hogy az intézmény Digitális Bölcsészeti Központja (OSZK DBK) létrehozta az első magyar nyelvű kézírás-felismerő modellt, és ingyenesen elérhetővé is tette a Transkribus szoftver komponenseként. Az úgynevezett HTR – Handwritten Text Recognition – modell betanítását Kiss József (1843–1921) költő, szerkesztő levelezésén végezték el, akinek írásképét ezentúl nem szükséges silabizálni, mert azt az algoritmus már megtette helyettünk. Hogy miért A Hét című hetilap alapítójára esett a választás, arról Mihály Eszter, az OSZK DBK csoportvezetője mesél a számítógépekkel teli helyiségben.

– A kézírás-felismerő modellek mindig nyelvspecifikusak, és időintervallum alapján is meghatározottak. A Digitális Bölcsészeti Központ még a Petőfi Irodalmi Múzeum (PIM) intézményi keretei között jött létre 2020-ban, amikor épp Kiss József levelezésével foglalkoztunk, ezért szűkítettük témánkat a múlt századforduló időszakára. És a költő, szerkesztő személye miatt is – teszi hozzá Mihály Eszter. – A Hét című hetilapját leginkább a Nyugat előfutáraként emlegetjük, de az annak árnyékában maradt: feldolgozását, megismertetését az irodalomtörténeti kutatások elhanyagolják. Ebbe az elfeledett irodalmi közegbe enged betekintést a lapalapító, szerkesztő levelezése. A kéziratgyűjtemény a PIM-ben található, a digitalizált dokumentumok között szerepelnek borítékok, képeslapok, hagyományos és fejléces levelek, valamint névjegykártyák is.

A kézírás-felismerést mesterséges intelligencián alapuló algoritmus végzi, amelyet azonban be is kellett tanítani. Első lépésben beszkennelték Kiss József leveleit, majd soronként kezdték átírni a kézirat szövegét – ez szolgált a felismerés mintájául.

– Az algoritmus a megadott minta alapján felépít egy modellt, amellyel értelmezi a neki ismeretlen, soha nem látott kézírásképet. Minél többféle anyagon tanítjuk, annál jobban teljesít különböző szövegeken – magyarázza Szűcs Kata digitális tartalomfejlesztő. – A jelenlegi modell először Kiss József írásán, majd a levelezőpartnerek vegyes kézírásán tanult. Nagyjából háromszáz, változó hosszúságú dokumentumról van szó, amelyek sorra felkerülnek a dhupla.hu/collection/kiss-jozsef-levelezes oldalra.

Kik voltak Kiss József levelezőpartnerei? Családtagok és a századforduló újságírói, művészei, többek között Ady Endre, Móricz Zsigmond vagy Tömörkény István. Üzenetváltásaikon keresztül bepillantást nyerhetünk a Nyugat folyóirat indulása előtt formálódó modern magyar irodalmi életbe, megismerkedhetünk a kor meghatározó egyéniségeivel és irányelveivel. A lapalapító kedélyes hangvételére is rácsodálkozhatunk. 1909. szeptember 28-án írt levele például igazán korrekt, életszerű, és a humort sem nélkülözi: „Kedves fiam Móricz Zsigmond! Küldjön egy csipetnyi novellát. A salláriumot felemelem 5 frttal. Ha e hétre liferálhatna, rögvest kiadnám. Ha meglátogatna, nagyon jót tenne velem, mert még mindig beteg vagyok. Collegialis szeretettel híve Kiss”. Az olvasás során formálódó összképpel egybecseng Szerb Antal méltatása, amely szerint A Hét című hetilap alapítója „olyan szerkesztői tehetség, akit csak az egy Osvát Ernő múlt felül. Lapja rövidesen orgánuma lett mindazoknak, akikben az új polgári szellem irodalmi formát öltött, de hordozta a régebbi nemzedékek kritikusabb elméit is.”

– Kiss Józsefnek szép, szabályos kézírása van, ám a levelezőpartnerei közül többeknek szinte olvashatatlan – osztja meg a tapasztalatát Szűcs Kata –, szóval elég vegyes benyomást szereztünk a századfordulós írásképről. A felismerés úgy történik, hogy az algoritmus megpróbálja azonosítani az egymást követő vonalakat: milyen karakterek lehetnek? Ehhez persze szükséges az általunk készített minta, tehát mi, átírók indítjuk el a folyamatot, majd a hibákat is javítjuk. Az algoritmus ezután összeveti az eredményt a saját megoldásaival. Ezt nevezzük tanulási folyamatnak. A modell jelenleg 9,19 hibaszázalékkal dolgozik, ami azt jelenti, hogy Kiss József és a neki szóló levelek kézírását közel kilencvenszázalékos pontossággal felismeri. Legtöbbször a központozást, az ékezeteket, a kis- és nagybetűket véti el. A korra jellemző idegen – főleg német és francia – kifejezésekkel sem tud mit kezdeni, de a karakterek többségét felismeri, ami rendkívüli módon felgyorsítja a digitalizálást.

– Mivel folyamatosan zajlik a levelek feldolgozása, amelyeket aztán szintén beleépítünk a modellbe, így egyre jobb eredmény várható – veszi át a szót Mihály Eszter. – Hosszú távú célunk: a saját szövegkorpuszon betanított modelleket egymásba építve egyre általánosabb érvényű eszközt létrehozni a magyar kéziratos források digitalizációjához. Kiss József után Petőfi Sándor összes, OSZK-ban őrzött levelének a feldolgozása, digitális kiadása következik. És folytatódik Móricz Zsigmond levelezésének, naplóinak a kritikai kiadása. Az irodalomtudományon túlról is érkeznek felkérések hozzánk, legutóbb a Magyar Nemzeti Levéltár jelezte, hogy szeretne velünk együttműködni. Csak bírjuk szusszal! Annyira új szakterületről van szó, hogy gyakran a Transkribus fejlesztői sem tudják megmondani, mit hogyan kell beállítani. Amikor például Kata jelezte nekik, hogy adatkinyeréshez hiányzik egy funkció, azt válaszolták, hogy jó ötletet adott, és gyorsan meg is csinálják. Ez az eset is rávilágít, mennyire termékeny és élő az együttműködésünk – valójában itt és most alakul a rendszer!

A digitális szövegkiadás haszna máris látható a dhupla.hu – digital humanities platform/digitális bölcsészeti platform – oldalon. A közgyűjteményekben rejtőző kulturális kincsek a digitális térben szövegként hozzáférhetővé, olvashatóvá, kereshetővé, számítógépes eszközökkel is feldolgozhatóvá, kutathatóvá válnak. A digitális szövegkiadások nyomán kinyerhető adatok és kreatív tartalmak között megtaláljuk mások mellett Móricz Zsigmond kapcsolati hálóját – 520 kézirat alapján 136 levelezőpartner állítja fókuszba az író pályakezdését.

Kiss József – szerkesztő lévén – szintén kiterjedt kapcsolati hálóval rendelkezett. Közvetlen stílusáról Szűcs Kata megemlíti, hogy szellemes, pikírt megjegyzéseinek köszönhetően is élvezetes olvasni a leveleit. A szegedi Dugonics Társaságban tartandó előadása ügyében például így búcsúzik Tömörkény Istvántól 1908. február 5-én: „Most pedig, ég veled, jó Tömörkény! Egyszer láttalak életembe[...]n, akkor is be voltál kapva. Ha rám nem ismernél, elárulom, rózsa lesz a gomblyukamba, fehér rózsa, piros rózsa, vagy esetleg csak puszta gomblyuk! Szervusz, Öregem!”

– Legfiatalabb lánya, Kiss Erzsébet személyes hangú írásában bukkantunk rá – minden kontextus nélkül – a „Kis Bögyöském” megszólításra, amellyel hirtelenjében nem is tudtunk mit kezdeni – meséli Szűcs Kata. – Ez a név sehogy sem illett ahhoz az autoriter figurához, akit a hivatalos levelei alapján megismertem. Mivel a levél végén újra előkerült a kedveskedő megszólítás, arra jutottunk, hogy az bizony nem vonatkozhat másra, csak az egyébként szigorú szerkesztőre, Kiss Józsefre magára. Ez a vidám hangú üzenet – „Kis Bögyöském, jó, hogy nem vagy mostanában itthon; fiaid folyton belőled citálnak különösen ebéd közben, amikor vad ricsajt csapnak körülöttem, visszaélve ama sajnálatos körülménnyel, hogy nem köthetem hátra a sarkukat…” – az elmúlt napokban szintén felkerült a dhuplára. El is olvasható ITT.

Borítókép: Szűcs Kata (balra) és Mihály Eszter Kiss József költő, szerkesztő levelét elemzi (Fotó: Kurucz Árpád)

Hírlevél feliratkozás
Nem akar lemaradni a Magyar Nemzet cikkeiről? Adja meg a nevét és az e-mail címét, és mi naponta elküldjük Önnek legjobb írásainkat.