Megértőbb gépek

Pár éve még csak álom volt, ma már valóság: az angol nyelvű weboldalt tized másodpercek alatt magyarra fordítja egy hazai alkalmazás. Pár hét, és magyar szövegeinket is angolra fordíthatjuk géppel, de egyelőre várni kell a magyar diktálóprogramra, és a gépi szinkrontolmácsolás is csak a tudományos-fantasztikus filmekben létezik. Prószéky Gábor egyetemi tanárral a számítógépes nyelvészet világába kalandoztunk.

2007. 05. 04. 23:00
VéleményhírlevélJobban mondva - heti véleményhírlevél - ahol a hét kiemelt témáihoz fűzött személyes gondolatok összeérnek, részletek itt.

Négy ember összetanakodott – így kezdődik az 1991-ben alapított MorphoLogic krónikája. A cél a számítógépes nyelvészet kutatása, fejlesztése és alkalmazása volt. A vállalkozás azóta már a nemzetközi piacon is ismert, termékeit megtaláljuk a szövegszerkesztőkben, a keresőprogramokban és más számítógépes eszközökben is. A Prószéky Gábor vezetésével dolgozó cégnek jelenleg több mint húsz állandó munkatársa van, hazai tudományos kutatóközpontokkal dolgoznak együtt, és részt vesznek az Európai Unió kutatási projektjeiben. A „fordító egér” szoftver kapcsán (a MoBiMouse futtatásával elég a kurzorral a fordítani kívánt szót kijelölni, fölötte egy buborékban azonnal megjelenik az eredmény) 1999-ben Európai Információtechnológiai Díjat kaptak. Ennek továbbfejlesztése volt a teljes angol mondatot magyarító MoBiCAT, a www.webforditas.hu honlapon pedig ingyen használható weblap- és szövegfordító, keresőprogram és szótár működik.
Magyarországon egyedülálló módon, a Pázmány Péter Katolikus Egyetem (PPKE) Információs Technológiai Karán tanítanak nyelvtechnológiát. Prószéky Gábor 2006 óta a kar dékánhelyettese, a PPKE doktori iskolájában pedig egyre nő az ezen a szakirányon kutató doktoranduszok száma. Az itt tanított információtechnológia különlegessége, hogy a számítógép mellett az élő szervezet sajátosságait is vizsgálják, hiszen a gép és az ember által használt „technológia” között nagy a hasonlóság: az idegrendszert felfoghatjuk komplex hálózatként, az agyat memória- és irányítóközpontként, de még az immunrendszer működése és a genetika tudománya sem haszontalan a jövendő mérnökei számára.
Azért is fontos tudományág manapság a számítógépes nyelvészet, mert a huszonegyedik században szöveg szinte csak számítógépen születik: azon írjuk, szerkesztjük, továbbítjuk (publikáljuk) és fordítjuk a közlendőnket, és géppel keressük meg az ehhez szükséges információt is. Néha olyan nyelven, amelyet nem ismerünk – ilyenkor merül fel a gyors, hatékony fordítás szükségessége. De nem mindegy, hogyan: hosszú ideig – főleg a hidegháború idején – az amerikaiak arra esküdtek, hogy a gépi fordításé a jövő, és jó sok pénzt költöttek el a kidolgozására. A kívánt eredmények késtek, ezért leálltak a fejlesztéssel. Aztán a formálódó Európai Unióban alakult ki újra az igény a nyolcvanas évek elején, a soknyelvűség szorításában. Itt sem volt áttörés, ezért a kezdeti lendület alábbhagyott egészen addig, amíg meg nem jelentek a matematikusok a maguk statisztikai módszereivel. Ezek lényege, hogy meglévő szövegekből és fordításaikból végeznek statisztikai számításokat, és ezeket alkalmazzák az új, lefordítandó szövegekre – magyarul a gép megkeresi az adatbázisból az egyszer már lefordított mondatot. Végtelen számú minta esetén tökéletesen működne ez a módszer, hiszen a gép mindent megtanulna, de erre természetesen nincs lehetőség – a tapasztalat szerint a szótáralapú fordítók még mindig jobbak, de drágábbak is a statisztikai módszert használó alkalmazásoknál. Az ötlet kézenfekvő: össze kell fésülni a kettőt. EuroMatrix néven nagyszabású európai projektbe fogtak ez ügyben, a kutatásban részt vesz a MorphoLogic is. A hibrid rendszer kialakítása 2006 szeptemberében kezdődött, és két és fél évet szánnak rá. A folyamat végén elvileg minden európai nyelvről minden európai nyelvre fordítana az új szoftver.
A MorphoLogic igazgatója szerint az első tíz évben annyiféle nyelvi szoftvermodult hoztak létre (elemzőket, szótárakat és az ezeket kezelő technológiát), hogy az új évezred elején – Tihanyi László vezetésével – bátran nekifoghattak a gépi fordításnak. Elsősorban az angolra koncentrálnak, hiszen a weben fellelhető szövegek kétharmadát ezen a nyelven írják. A cél nem a tökéletes fordítás elkészítése, hanem inkább a megértés támogatása. A feladat nem egyszerű, mert a tükörfordítás gyakran tévútra visz, ezért a gépnek lehetőleg az adott szöveg egészét, kontextusát is meg kell értenie. Külön bonyolítja a dolgokat a szövegek, hírek címeinek fordítása, hiszen ezeknek más a grammatikájuk – a gépnek fel kell ismernie, hogy címmel van dolga, hogy az erre írt speciális nyelvtani programot indíthassa el.
Nehezíti a dolgot, hogy a világhálón fellelhető angol nyelvű szövegek csak látszólag íródtak angolul: nagy részüket nem anyanyelvi szinten írók-beszélők készítették. A kaotikus helyzet miatt a gépnek sokszor „ki kell találnia”, hogy mit akart megfogalmazni, aki a szöveget elkészítette, és ezt lefordítania magyarra. Az emberi agy sajátosságai miatt mi a legtöbb esetben megértjük a hibás szöveget is, a gép azonban nagyon könynyen tévedhet ebben a helyzetben: a rossz helyre tett vesszőkkel, elgépelt szavakkal, sok nyelvi hibával megírt szöveg esetében nagyságrendekkel nehezebb a dolga a számítógépnek. A MorphoLogic webfordítója a teljes szöveget lefordítja pár másodperc alatt – Prószéky Gábor szerint ezzel nagy kockázatot vállaltak, és nagy bátorság kellett a fejlesztőknek ahhoz, hogy megtanítsák a gépet „toleránsnak lenni”, magyarul elfogadni a bizonytalan értelmezést. A formális nyelvészet szabályai szerint ugyanis csak az fordítható le, ami szabályos, de itt nem a tökéletesség, hanem a hatékonyság a cél.
A kétezerben Széchenyi-díjjal kitüntetett tudós szerint a huszadik század matematikája megmutatta, hogy az igen vagy nem logikája új szempontokkal bővült: azt is figyelni kell, mennyi időbe, energiába, ráfordításba kerül az igen. Bizonyos esetekben nem precíz, hanem gyors és használható fordítások kellenek – esetünkben, viccesen fogalmazva, „ilyen gyorsan, ilyen olcsón ilyen rosszat más nem tud produkálni”.
Mindezt egy példán keresztül megvizsgálva: ha egy angolul nem beszélő magyar termelő az uniós weboldalakon fellelhető adattengerből próbál a maga számára hasznos információt kihalászni, akkor nem kell neki a több ezer oldalas dokumentumokat lefordíttatni, elég, ha a gép segítségével megérti, hogy azok nagyjából miről szólnak. A konkrét, őt érdeklő információt aztán már szakemberrel pontosan lefordíttathatja, de amíg ehhez eljut, sok órát spórolhat meg egy olyan szoftverrel, amely pillanatok alatt általa is megérthető állapotba hozza a szövegeket.
Érdekes a kutatók tapasztalata ez ügyben: miután a mintaszöveget a gép lefordította, a néha vicces, nem túl értelmesnek tűnő magyar fordításból kérdéseket tettek fel egy kísérleti csoport tagjainak. A válaszok alapján csaknem százszázalékos volt a megértés, miközben az emberek elutasították a magyar fordítást, és azt állították, hogy képtelenek megérteni. Tehát intoleránsak vagyunk a géppel, miközben embertársainktól sokkal inkább elfogadjuk a hibát. Pedig rászorulunk a gép segítségére, hiszen kevesen beszélünk nyelveket. A gépi eszköz elterjedésnek gátja az is, hogy akiknek a leginkább szükségük van rá (idősebb generáció), azok kevesebbet interneteznek, mint az újdonságra fogékony fiatalok.
A nyelvész szerint szűk szakmai területen jobb minőségű fordítást is el lehetne érni, hiszen radikálisan csökken a többjelentésű szavak mennyisége. Egy autó műszaki leírása vagy egy használati utasítás esetén a célszoftvernek nem kell más kontextusokban „gondolkodnia”, így hatékonyan és jól tudna fordítani – a cég a jövőben ilyen alkalmazásokat akar piacra dobni.
Nagyon érdekes a másik irány: ha magyar szövegünket angolra fordíttatjuk, kritika nélkül elfogadjuk az eredményt, ha nem beszélünk angolul. A minőségi szűrőt ezért már a magyar nyelvnél beépítik – a hamarosan elkészülő magyar–angol MorphoWord fordítóprogramhoz készül egy kiegészítő modul, mely csak azt ülteti át a másik nyelvre, ami helyesen van megfogalmazva az eredetiben. Magyarul: ez az úgynevezett kontrollált nyelvi alkalmazás arra figyel, hogy ne írjunk le olyat, amit majd nem tud lefordítani a gép. Az új szoftver azoknak segít, akik nem beszélik ugyan a nyelvet, de üzleti vagy más okokból leveleznének angolul, netán lefordítanák weboldalukat.
A jövőbe mutató tendenciákról szólva Prószéky Gábor a fordító munkájának támogatását emelte ki: a hatékony környezet megteremtésével a gép a jövőben aládolgozik az embernek, elvégezve a kulimunkát. A jövőt kutatva fontos szerepük lehet a szűrőprogramoknak is. A kommunikáció ugyanis újra túl direktté vált – egy elfoglalt üzletembert telefonon nehéz elérni, de az SMS-ét és az e-mailjét nagy valószínűséggel még maga olvassa. És egyre többet kap belőlük, így egyre kevesebb ideje marad a munkájára – ha egy beépített nyelvtechnológiai eszköz automatikusan elemezné a tartalmakat, és osztályozná a leveleket, netán továbbítaná is őket az illetékeseknek, ezzel sok időt lehetne spórolni.
A beszélt nyelv információtechnológiával való támogatása esetében minket, magyarokat a kis nyelvek hátránya sújt: piaci szempontból nem vagyunk elegen ahhoz, hogy megérje például magyarul is értő diktálóprogramot fejleszteni. Ráadásul nagyon bonyolult a magyar, így kétszeresen nehéz a feladat. A szakember szerint baj van a saját igényességünkkel is. Nem akarunk, nem tudunk helyesen írni és pontosan fogalmazni. Arra már van példa, hogy a szövegszerkesztők helytelen beállításai miatt szokunk rá hibákra: sok helyen találkozunk nagybetűs hónapnévvel amiatt, mert van olyan szövegszerkesztő program, mely a pont után automatikusan nagybetűvel kezdi a mondatot. A felhasználó először csodálkozik, hogy ő még kis j-vel tudta a januárt, de aztán megszokja a látványt, és szabálynak fogadja el – pedig ki is kapcsolhatná ezt az opciót a programban, és ezzel minden hibás nagybetűsítés megoldódna.
– Ha a szövegünkben káosz van, ezt a gép megsokszorozza, míg a gondozott szöveget hatékonyan tudja kezelni – véli a szakember.
A számítógépes nyelvészeti alkalmazások legnagyobb hibaforrása tehát nem a gép, hanem még mindig az ember. A géppel az a baj, hogy a hibát – az emberrel ellentétben – nem nagyon képes értelmezni.

Ne maradjon le a Magyar Nemzet legjobb írásairól, olvassa őket minden nap!

Google News
A legfrissebb hírekért kövess minket az Magyar Nemzet Google News oldalán is!

Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.