Sorsok cirill betűvel

A Magyar Nemzeti Levéltár két éve kormányzati támogatással vásárolta meg az Orosz Állami Hadilevéltártól­ a második világháború alatt elhurcolt magyar hadifoglyok és civilek alapvető adatait tartalmazó kartonok ­digitalizált, szkennelt képét, valamint az ebből készített adatbázist. Elképesztő mennyiségű adat érkezett, amelyet át kellett ültetni magyarra.

2021. 03. 29. 13:20
null
Mintegy 682.000 személy adatait öleli fel az adatbázis Forrás: ELkH
Vélemény hírlevélJobban mondva- heti vélemény hírlevél - ahol a hét kiemelt témáihoz füzött személyes gondolatok összeérnek, részletek itt.

Magyarország csak 2019-ben kapta meg Oroszországtól a magyar hadifoglyok és civil elhurcoltak adatait. A kormány összesen 250 millió forintot adott erre a célra. Az orosz fél állítása szerint a magyar intézmény a teljes adatbázist megkapta. A mintegy 682 ezer személyről készült kartonok feldolgozása után idén február 25-én nyílt meg a Magyar Nemzeti Levéltár által üzemeltetett adatbázis. A programot irányító levéltár elsődleges célja az volt, hogy az információkat online kereshető formában közzétegye, hogy a leszármazottak hozzájussanak a rokonaikról tudható információkhoz, illetve hogy általánosságban kutathatóvá tegye az anyagot. Február vége óta az érdeklődők megtalálhatják a szovjet táborokat megjárt családtagokról, rokonokról készült feljegyzéseket.

– Felvetődik, hogy a kartonlapok alapján egyértelműen azonosíthatók-e az egykoron elhurcoltak, vagy az adatok hézagosak. Az elmúlt hetek tapasztalatai alapján a rokonaikat kereső felhasználók megtalálják őket, tehát nagyjából teljes az adatbázis – tájékoztat Sass Bálint, az ELKH Nyelvtudományi Kutatóközpont tudományos munkatársa. Fontos, hogy csak az szerepel az adatbázisban, aki megérkezett a fogolytáborba – aki útközben elhunyt, az sajnos nem.

Kérdéses, hogy a kartonok alapján egyértelműen azonosíthatók-e az elhurcoltak, vagy az adatok hézagosak
Fotó: ELKH

Az adatfeldolgozási munka zöme, a manuális fordításokat is beleértve, a levéltár munkatársaira hárult. A Nyelvtudományi Kutatóközpont szakemberei a személy- és településnevek gépi átírását hajtották végre a Magyar Nemzeti Levéltár ellenőrzése és visszajelzései alapján. A kartonokon természetesen minden cirill betűkkel szerepel, tehát nemcsak az orosz nyelvű, hanem a magyar nyelvű adatok is: a vezetéknév, a keresztnév, illetve a születés és fogságba esés helye. Az idén januárban Szegeden rendezett Magyar Számítógépes Nyelvészeti Konferencián Sass Bálint arról beszélt, hogy a nyelvészek a cirill betűs leiratból dolgoztak, nem az eredeti kartonokból. Az anyag átültetése magyarra gyakran könnyű volt, más esetben megoldhatatlan feladat. Amikor ezt látják: Ковач Йожеф, abból könnyen átírható a Kovács József név. Ám ez nem mindig lehetséges, mivel az orosz betűk, hangok nem egy az egyben felelnek meg a magyar betűknek és hangoknak.

– Érdemes megemlíteni, hogy az ékezetek miatt már a Ковач Йожеф helyreállítása sem triviális – figyelmeztet Sass Bálint, aki szerint az anyag az elmúlt évtizedek során több alkalommal is torzult.

A szovjet hadifogolytáborokba érkező katonák általában nem rendelkeztek iratokkal. Ezért adataikat legtöbbször hallás után írta le az adminisztrációt végző szovjet katona. Az első torzulást tehát az okozza, hogy hallás után rögzítették a leíró által nem értett magyar nyelvű adatot. A második akkor keletkezett, amikor az elmúlt években az Orosz Állami Hadilevéltár munkatársai manuális munkával digitalizálták a sokszor nagyon nehezen olvasható kézírásos kartonokat – természetesen ők sem értették a leírtakat. A fenti két torzulás biztosra vehető, ezenkívül még lehetséges egy harmadik is: a kartonok valószínűleg nem közvetlenül a táborokban készültek, hanem központi helyen, így még egy másolási lépés is beiktatódhat.

A nehézséget az is okozza, hogy tömegesen fordulnak elő nehezen algoritmizálható esetek, mint például: Дейло – Béla, Саотморской – Szatmár, Гонграмеде – Csongrád, vagy Кишкупфьилстьгаза – Kiskunfélegyháza. Sok esetben több egyenrangú lehetséges megoldás is adódik, amelyek közül már nem lehet vagy nem érdemes automatizált módon választani, például: Эрин – Ernő; Ervin; Erik. Problémát okoz, hogy egy orosz betűnek több magyar is megfelelhet. A fenti példákat az algoritmus többszörös betűmegfeleltetések, illetve közelítő keresés révén a megfelelő tulajdonnévlistákra illesztéssel oldja meg. Amikor – említ egy példát Sass Bálint – cirill betűkkel leírva azt olvassák, hogy Шаторомоуйгел, abból beugrik Sátoraljaújhely neve. Ilyenkor a betűmegfeleltetéseken felül rá kell jönni, hogy ami cirill betűkkel омо, az magyarul aljának felel meg.

– A jelenlegi feldolgozottság 83,6 százalékos, ám fontos látni, hogy a megkívánt száz százalékot tisztán automatikus eszközökkel nem érhetjük el. Főként ennyire torzult adatoknál. Azt gondolom, hogy lesznek olyan adatelemek, melyeknek a feloldására emberi munkával sem lehet rájönni. Erre példa: Аирг (Airg), Алпабирнабим (Alpabirnabim), Алохупкуя (Alohupkuja), Анцирн (Ancirn). Jelenleg nem tudjuk, hogy mit jelenthettek magyarul. A megoldásban segíthetnek a felhasználók, akik beküldhetik egyedi javításai­kat – ajánlja Sass Bálint, aki hozzáteszi: azok az adatok, amelyekkel ők foglalkoztak (az igazi orosz szövegek fordítása ugyanis a levéltárra hárult), magyar nyelvű szövegek cirill betűkkel leírva. Feladatuk ugyan az eredeti magyar adat helyreállítása volt, azonban az átírórendszer általános célú. Ha elkészítik a megfelelő szabályrendszert, akkor az alkalmassá tehető orosz szövegek átírására, sőt valójában bármilyen nyelvű/írású szöveg átírására bármilyen másikról. De nem fordításra!

Az elkészült keresőrendszert a Magyar Nemzeti Levéltár működteti. Aki kíváncsi a szovjet táborokat megjárt rokonára, vagy általában érdekli ez a különös kordokumentum, az rákereshet ezen a honlapon.

A téma legfrissebb hírei

Tovább az összes cikkhez chevron-right

Ne maradjon le a Magyar Nemzet legjobb írásairól, olvassa őket minden nap!

Címoldalról ajánljuk

Tovább az összes cikkhez chevron-right

Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.