Végre magyar kézen a Szovjetunióba hurcolt, több százezer honfitársunk adatai

Magyarország sok évtized után végül 2019-ben kapta meg Oroszországtól a magyar hadifoglyok és civil elhurcoltak adatait. A csaknem 682 ezer személy adatainak feldolgozását követően idén február 25-én nyílt meg a Magyar Nemzeti Levéltár által üzemeltetett adatbázis. Az adatbázis teljesnek tekinthető, így jelentős forrás a kutatás számára. Emellett nagyon fontos a nagyközönség részére is, hiszen az érdeklődők megismerhetik a rendelkezésre álló információkat, megtalálhatják a szovjet táborokat megjárt családtagokat, rokonokat. A cirill betűs adatbázis magyarra történő automatizált átültetését az ELKH Nyelvtudományi Kutatóközpont (NYTK) kutatói végezték Sass Bálint vezetésével – olvasható az Eötvös Loránd Kutatási Hálózat oldalán.

Forrás: Eötvös Loránd Kutatási Hálózat2021. 03. 22. 14:00
null
Mintegy 682.000 személy adatait öleli fel az adatbázis Forrás: ELkH
Vélemény hírlevélJobban mondva- heti vélemény hírlevél - ahol a hét kiemelt témáihoz füzött személyes gondolatok összeérnek, részletek itt.

A Magyar Nemzeti Levéltár 2019-ben közel 200 millió forintért vásárolta meg az Orosz Állami Hadilevéltártól a közel 682 ezer magyar hadifogoly és elhurcolt civil személy alapvető adatait tartalmazó kartonok digitalizált, szkennelt képét, valamint az ebből készített adatbázist. Ez az adott személyekhez köthető legfontosabb információkat tartalmazza: a fogolyként nyilvántartott személy vezeték- és keresztnevét, orosz szokásnak megfelelően az apai keresztnevet, a rendfokozatot, a születés helyét és idejét, a fogságba esés helyét és idejét, a távozás idejét és az elbocsátó tábort, valamint – amennyiben az illető személy elhunyt – az elhalálozás időpontját.

Csaknem 682 ezer személy adatait öleli fel az adatbázis
Fotó: ELKH

A kartonokon természetesen minden cirill betűkkel szerepel, tehát nemcsak az orosz nyelvű, hanem a magyar nyelvű adatok is: a vezetéknév, a keresztnév, illetve a földrajzi helyek – születés és fogságba esés helye – egyes elemei. A feldolgozás során az jelentette a nyelvi problémát, hogy a magyar foglyok által bediktált magyar nyelvű személyes adatok cirill betűs formában álltak rendelkezésre, mégpedig úgy, ahogyan azt az adatokat felvevő – általában orosz – katona hallás után éppen leírta. Ráadásul az adatok tovább torzultak, amikor a 2010-es évek során az orosz kollégák a kartonok alapján elkészítették az adatbázist: ekkor a 70 évvel korábbi kézírás alapján rögzítették az általuk nem értett magyar nyelvű, de cirill betűkkel leírt szövegeket.

Az adatok automatikus orosz–magyar átírását, helyreállítását a NYTK munkatársai végezték Sass Bálint vezetésével. A feladat tehát a „Ковач Йожеф → Kovács József” jellegű transzkripció megvalósítása volt. A nehézséget az okozza, hogy a torzulások miatt a betű-betű megfeleltetés a legritkább esetben ad helyes megoldást. Tömegesen fordulnak elő nehezen algoritmizálható esetek, mint például: Цилбауер → Zielbauer, Дейло → Béla, Саотморской → Szatmár, Гонграмеде → Csongrád, vagy Кишкупфьилстьгаза → Kiskunfélegyháza. Sok esetben több egyenrangú lehetséges megoldás is adódik, amelyek közül már nem lehet, vagy nem érdemes automatizált módon választani, például: Эрин → Ernő; Ervin; Erik.

A munkálatok részleteiről az idei Magyar Számítógépes Nyelvészeti Konferencián elhangzott előadásból, illetve a kapcsolódó publikációból, továbbá a 2020-as magyar tudomány ünnepén elhangzott előadásból lehet tájékozódni. Az automatikus átíró-helyreállító eszköz megtalálható a Githubon.

Érdemes megtekinteni az Ez itt a kérdés 2021. február 22-i adását a 13. perctől kezdve. A műsorban bejátszott archív felvételen egy volt hadifogoly emlékezik vissza arra, hogy mennyi minden múlik azon, hogy az ember Hegyi vagy esetleg Gegyi – a h-g csere az egyik tipikus elírás – néven szerepel a névsorban. Ez a rövid részlet szemléletesen mutatja be azt a nyelvi problémát, amelynek a kezelésére a Nyelvtudományi Kutatóközpont munkatársai vállalkoztak. A 2021. február 25-én, a kommunizmus áldozatainak emléknapján megnyílt, szabadon kereshető nyilvános adatbázis a Magyar Nemzeti Levéltár oldalán érhető el.

Az eredeti cikk IDE kattintva érhető el.

A téma legfrissebb hírei

Tovább az összes cikkhez chevron-right

Ne maradjon le a Magyar Nemzet legjobb írásairól, olvassa őket minden nap!

Címoldalról ajánljuk

Tovább az összes cikkhez chevron-right

Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.