A kézírás-felismerést mesterséges intelligencián alapuló algoritmus végzi, amelyet azonban be is kellett tanítani. Első lépésben beszkennelték Kiss József leveleit, majd soronként kezdték átírni a kézirat szövegét – ez szolgált a felismerés mintájául.
– Az algoritmus a megadott minta alapján felépít egy modellt, amellyel értelmezi a neki ismeretlen, soha nem látott kézírásképet. Minél többféle anyagon tanítjuk, annál jobban teljesít különböző szövegeken – magyarázza Szűcs Kata digitális tartalomfejlesztő. – A jelenlegi modell először Kiss József írásán, majd a levelezőpartnerek vegyes kézírásán tanult. Nagyjából háromszáz, változó hosszúságú dokumentumról van szó, amelyek sorra felkerülnek a dhupla.hu/collection/kiss-jozsef-levelezes oldalra.
Kik voltak Kiss József levelezőpartnerei? Családtagok és a századforduló újságírói, művészei, többek között Ady Endre, Móricz Zsigmond vagy Tömörkény István. Üzenetváltásaikon keresztül bepillantást nyerhetünk a Nyugat folyóirat indulása előtt formálódó modern magyar irodalmi életbe, megismerkedhetünk a kor meghatározó egyéniségeivel és irányelveivel. A lapalapító kedélyes hangvételére is rácsodálkozhatunk. 1909. szeptember 28-án írt levele például igazán korrekt, életszerű, és a humort sem nélkülözi: „Kedves fiam Móricz Zsigmond! Küldjön egy csipetnyi novellát. A salláriumot felemelem 5 frttal. Ha e hétre liferálhatna, rögvest kiadnám. Ha meglátogatna, nagyon jót tenne velem, mert még mindig beteg vagyok. Collegialis szeretettel híve Kiss”. Az olvasás során formálódó összképpel egybecseng Szerb Antal méltatása, amely szerint A Hét című hetilap alapítója „olyan szerkesztői tehetség, akit csak az egy Osvát Ernő múlt felül. Lapja rövidesen orgánuma lett mindazoknak, akikben az új polgári szellem irodalmi formát öltött, de hordozta a régebbi nemzedékek kritikusabb elméit is.”
– Kiss Józsefnek szép, szabályos kézírása van, ám a levelezőpartnerei közül többeknek szinte olvashatatlan – osztja meg a tapasztalatát Szűcs Kata –, szóval elég vegyes benyomást szereztünk a századfordulós írásképről. A felismerés úgy történik, hogy az algoritmus megpróbálja azonosítani az egymást követő vonalakat: milyen karakterek lehetnek? Ehhez persze szükséges az általunk készített minta, tehát mi, átírók indítjuk el a folyamatot, majd a hibákat is javítjuk. Az algoritmus ezután összeveti az eredményt a saját megoldásaival. Ezt nevezzük tanulási folyamatnak. A modell jelenleg 9,19 hibaszázalékkal dolgozik, ami azt jelenti, hogy Kiss József és a neki szóló levelek kézírását közel kilencvenszázalékos pontossággal felismeri. Legtöbbször a központozást, az ékezeteket, a kis- és nagybetűket véti el. A korra jellemző idegen – főleg német és francia – kifejezésekkel sem tud mit kezdeni, de a karakterek többségét felismeri, ami rendkívüli módon felgyorsítja a digitalizálást.
– Mivel folyamatosan zajlik a levelek feldolgozása, amelyeket aztán szintén beleépítünk a modellbe, így egyre jobb eredmény várható – veszi át a szót Mihály Eszter. – Hosszú távú célunk: a saját szövegkorpuszon betanított modelleket egymásba építve egyre általánosabb érvényű eszközt létrehozni a magyar kéziratos források digitalizációjához. Kiss József után Petőfi Sándor összes, OSZK-ban őrzött levelének a feldolgozása, digitális kiadása következik. És folytatódik Móricz Zsigmond levelezésének, naplóinak a kritikai kiadása. Az irodalomtudományon túlról is érkeznek felkérések hozzánk, legutóbb a Magyar Nemzeti Levéltár jelezte, hogy szeretne velünk együttműködni. Csak bírjuk szusszal! Annyira új szakterületről van szó, hogy gyakran a Transkribus fejlesztői sem tudják megmondani, mit hogyan kell beállítani. Amikor például Kata jelezte nekik, hogy adatkinyeréshez hiányzik egy funkció, azt válaszolták, hogy jó ötletet adott, és gyorsan meg is csinálják. Ez az eset is rávilágít, mennyire termékeny és élő az együttműködésünk – valójában itt és most alakul a rendszer!