– Érdemes megemlíteni, hogy az ékezetek miatt már a Ковач Йожеф helyreállítása sem triviális – figyelmeztet Sass Bálint, aki szerint az anyag az elmúlt évtizedek során több alkalommal is torzult.
A szovjet hadifogolytáborokba érkező katonák általában nem rendelkeztek iratokkal. Ezért adataikat legtöbbször hallás után írta le az adminisztrációt végző szovjet katona. Az első torzulást tehát az okozza, hogy hallás után rögzítették a leíró által nem értett magyar nyelvű adatot. A második akkor keletkezett, amikor az elmúlt években az Orosz Állami Hadilevéltár munkatársai manuális munkával digitalizálták a sokszor nagyon nehezen olvasható kézírásos kartonokat – természetesen ők sem értették a leírtakat. A fenti két torzulás biztosra vehető, ezenkívül még lehetséges egy harmadik is: a kartonok valószínűleg nem közvetlenül a táborokban készültek, hanem központi helyen, így még egy másolási lépés is beiktatódhat.
A nehézséget az is okozza, hogy tömegesen fordulnak elő nehezen algoritmizálható esetek, mint például: Дейло – Béla, Саотморской – Szatmár, Гонграмеде – Csongrád, vagy Кишкупфьилстьгаза – Kiskunfélegyháza. Sok esetben több egyenrangú lehetséges megoldás is adódik, amelyek közül már nem lehet vagy nem érdemes automatizált módon választani, például: Эрин – Ernő; Ervin; Erik. Problémát okoz, hogy egy orosz betűnek több magyar is megfelelhet. A fenti példákat az algoritmus többszörös betűmegfeleltetések, illetve közelítő keresés révén a megfelelő tulajdonnévlistákra illesztéssel oldja meg. Amikor – említ egy példát Sass Bálint – cirill betűkkel leírva azt olvassák, hogy Шаторомоуйгел, abból beugrik Sátoraljaújhely neve. Ilyenkor a betűmegfeleltetéseken felül rá kell jönni, hogy ami cirill betűkkel омо, az magyarul aljának felel meg.
– A jelenlegi feldolgozottság 83,6 százalékos, ám fontos látni, hogy a megkívánt száz százalékot tisztán automatikus eszközökkel nem érhetjük el. Főként ennyire torzult adatoknál. Azt gondolom, hogy lesznek olyan adatelemek, melyeknek a feloldására emberi munkával sem lehet rájönni. Erre példa: Аирг (Airg), Алпабирнабим (Alpabirnabim), Алохупкуя (Alohupkuja), Анцирн (Ancirn). Jelenleg nem tudjuk, hogy mit jelenthettek magyarul. A megoldásban segíthetnek a felhasználók, akik beküldhetik egyedi javításaikat – ajánlja Sass Bálint, aki hozzáteszi: azok az adatok, amelyekkel ők foglalkoztak (az igazi orosz szövegek fordítása ugyanis a levéltárra hárult), magyar nyelvű szövegek cirill betűkkel leírva. Feladatuk ugyan az eredeti magyar adat helyreállítása volt, azonban az átírórendszer általános célú. Ha elkészítik a megfelelő szabályrendszert, akkor az alkalmassá tehető orosz szövegek átírására, sőt valójában bármilyen nyelvű/írású szöveg átírására bármilyen másikról. De nem fordításra!




















Szóljon hozzá!
Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!