A nyelvészeknek, szótáríróknak, mindazoknak, akik a magyar nyelv állapotáról hű képet szeretnének kapni, megkerülhetetlen segítséget jelent a számítógépek használata, mivel annak adatai, vizsgálati eredményei már nem megérzést, hanem pontos, számokkal kifejezhető tényeket mutatnak, mondja Váradi Tamás, a Magyar Tudományos Akadémia Nyelvtudományi Intézete korpusznyelvészeti osztályának vezetője. A világhálón corpus.nytud.hu/mnsz címen hozzáférhető és vizsgálható a Magyar Nemzeti Szövegtár, mely százötvenmillió szót tartalmaz, és ötféle nyelvhasználat adatait vizsgálja: a sajtó, a szépirodalom, a tudományos irodalom, a hivatalosság és a beszélt nyelvhez legközelebb álló internetes fórumok nyelvét. A szövegtár nem csupán szöveggyűjtemény, hanem nyelvileg alaposan elemzett anyag, amelyben minden szó egyértelmű elemzést kap. A magyar szavak mintegy harmada ugyanis önmagában tekintve többértelmű, magyarázza a nyelvész. A telefon szó főnévként jelent távközlési eszközt, de lehet ige is, hisz a pók telefonja a hálójával a sarkot. Az állam lehet szervezet, de helye lehet az arcunkon is. A számítógépes szövegfeldolgozás, mely rákényszerítette a nyelvészeket arra, hogy minden szöveghelyen minden szót elemezzenek és értelmezzenek, új szempontokat is adott a nyelvészeknek.
A magyar nyelv nem tartozik az indoeurópai nyelvcsaládhoz, így felépítését, gondolkodásmódját gyökeresen új megközelítéssel kell vizsgálni és leírni. Ami a magyarban egyetlen szó, az az angolban akár egy egész mondat, mondja Váradi Tamás. Az „I could see you” helyett mi azt mondjuk: Láthatnálak. A magyar nagyon más, mint a legtöbb európai nyelv, mivel bonyolult az alaktana, és kötetlen a szórendje is. A szóalakok gazdagságára jellemző, hogy egy főnév a magyarban 756 formában élhet, az angolban legfeljebb két-három alakban. Ezért nem tudjuk a nyugat-európai nyelvekre kidolgozott számítógépes nyelvészeti technológiákat, programokat sem átvenni. (A magyarra is használható számítógépes alaktan elméleti megoldása egyébként finn nyelvésztől származik.) Ezentúl szabad a mondatbeli szórend is, mivel a mondattagok egymás közötti viszonyát a ragokkal jelezzük. Egy magyar mondat másként szerveződik, egészen más felépítésének a szemlélete, magyarázza a nyelvész, mert nemcsak az számít, hogy milyen új információt hoz, de az is, hogy milyen információt hozott az előző mondatból.
Rákényszerítette a nyelvészeket mindez arra, hogy a számítógép logikáját követve vizsgálják meg a törvényszerűségeket. A beszélő, a nyelvhasználó sok mindent automatikusan használ, a számítógép azonban nyomban szembesítette a kutatókat a rendszerbe nem illő jelenségekkel. Első lépésben tehát olyan nyelvfeldolgozást kellett készíteniük, amelyet a számítógép megért, logikusan tud kezelni. Sok feladatot kellett megoldaniuk, így például felismertetni a géppel a szavakat, mondathatárokat. A szavak elemzése után el kell még végezni a mondatszerkezetek feldolgozását és kódolását is, melyen a Nyelvtudományi intézet munkatársai a Szegedi Tudományegyetem Informatikai tanszékcsoportja és a MophoLogic Kft. kutatóival közösen dolgoznak. Készítik azt az adattárat, mely lehetővé teszi a szöveg tartalmi összefoglalására, illetve a beszédfelismerésre képes programok kidolgozását is.
A nyelvi törvényszerűségeket a számítógép csak nagy tömegű szöveg alapján tudja kivonni, mondja Váradi Tamás. Ezt a gépnek be kell tanítani. Minél több a nyelvi információja, annál intelligensebb kommunikációra lehet kényszeríteni. A cél, hogy a gép ne csak mechanikusan használja, hanem értse is valamennyire a nyelvet. Ez ma már nem utópia, angol szövegekből már képes a számítógép tartalmi kivonatot készíteni, és az Európai Unióban is működik olyan rendszer, amelyik minden jelenlegi tagország nyelvén osztályozni tudja a szövegeket. Tudásának része ugyanis az Eurovoc nevű hierarchikus fogalmi rendszer, mely segítségével a szövegek tartalma szabványos módon jellemezhető, a program pedig felismeri az egyes szövegek vezérszavait, és azok alapján helyezi el a szövegeket a témakörnek megfelelő doszsziéba. Küszöbönálló csatlakozásunk az Európai Unióhoz sürgető feladattá teszi az Eurovoc rendszer magyar változatának kidolgozását, amelynek előkészítésén most dolgoznak nyelvészeink.
Az ma már nem újdonság, hogy a számítógép beszélni tud. Ennek előnyeit nemcsak a fogyatékkal élők élvezhetik, hanem mindazok, akik telefonszám után tudakozódnak, számlájuk állását szeretnék megtudni, újabban azok is, akik nem olvasni, hanem hallani kívánják a mobiltelefonjukra érkezett írásos üzeneteket. A magyar beszédtechnológia kezdetei Kempelen Farkasig nyúlnak vissza, aki 1791-ben alkotta meg az első működő beszélőgépet. Az eredeti leírások és rajzok alapján 2001-ben rekonstruálták az MTA Nyelvtudományi Intézete Kempelen Farkas Beszédkutatási Laboratóriumában a szerkezetet, amelyik hangkapcsolatokat, szavakat, sőt rövid mondatokat is képes kiejteni. Az első magyar beszédszintetizátort, a Hungarovoxot 1983-ban szintén itt készítették el. Az eltelt húsz évben nagyot fejlődött ugyan a számítógépes hang, de a kutatók nem állnak, nem állhatnak meg. Nemcsak az örökös piaci kényszer hajtja őket, hanem a felismert, de még el nem ért megoldások, lehetőségek megvalósítása is.
A hazai számítógépes beszédkeltő programok kutatás-fejlesztésének legjelentősebb központja a Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Karának távközlési és médiainformatikai tanszéke. Németh Géza egyetemi docens hosszú évek óta dolgozik együtt Olaszy Gáborral, az MTA Nyelvtudományi Intézete Kempelen Farkas Beszédkutató Laboratóriumának munkatársával. A fonetika és számítástechnika tudománya ugyanis csak egymást segítve, ösztönözve tud közös eredményeket elérni.
Németh Géza szerint a jelen világ egyik ellentmondása, hogy miközben a globalizációs társadalom érdeke az egyén folyamatos butítása, az információs társadalom éppen a kifinomultabb gondolkodást igényelné. Emiatt azután a meglévő eredmények többsége el sem jut az emberekig, akik amúgy sem szeretik, ha folyton zaklatják őket az újdonságokkal. Ezért a reklámok, melyek eljuttathatnák az új technológiai megoldások hírét a tömegekhez, elsősorban érzelmekkel, nem tiszta és pontos információkkal dolgoznak. A helyes cél persze az lenne, hogy a felhasználó ne a bonyolult tudományt lássa az új fejlesztések mögött, hanem azt érezze, minden az ő kényelmét szolgálja.
A BME távközlési és médiainformatikai tanszékének jóvoltából már 1992 óta működik nálunk számváltozás-bemondó számítógép, 1995 óta beszélő számla, és 1999 vége óta – Európában az elsők között – az egyik mobilszolgáltatónknál elektronikus levélfelolvasó. Újabban – a világon először – sms-einket olvassa fel a telefonunk, és a Németh Géza készülékébe táplált, az M.I.T. Systems Kft.-vel közösen fejlesztett sms-mondó program a különböző nyelvű üzeneteket is felismeri. A szolgáltatás az egyik távközlési szolgáltató ügyfelei számára ingyen elérhető. A kutatási eredmények napi haszna tehát már mindannyiunk által tapasztalható, a továbblépéshez azonban a nyelvészeti, elsősorban a szintaktikai és prozódiai ismeretek finomítására van szükség.
A beszéd nemcsak auditív, hanem vizuális jelenség is, magyarázza Németh Géza. Ha zajos környezetben beszélgetek valakivel, akkor ki tudom szűrni a zavaró hangokat, és oda tudok figyelni a másikra, a mimikája, a szájmozgása segíti a megértést. A gép erre nem képes, és nem is helyettesítheti minden területen az embert. Néhány éve nagy lendülettel indult a diktálórendszerek bevezetése, de nem lett üzleti siker. Gondoljunk csak bele, mondja a kutató, hogy egy főnök és titkárnő összeszokásához is idő kell, a főnök diktálás közben utasításokat ad: vessző, pont, új bekezdés, zárójel. Elvárták volna a géptől, hogy ezeket a parancsokat magától, utasítás nélkül hajtsa végre. Kiderült, hogy egyrészt kiveszett a diktálási kultúra, mert a számítógépek elterjedése óta mindenki szívesebben írja maga a szövegeit, másrészt viszont a gép nem titkárnő, amelyik lesi a főnök gondolatait. Néhány speciális területen természetesen alkalmazható a diktálóprogram, így megkönnyíti a fogyatékosok életét, vagy segíti az orvosi leletek megírását. A kutatási eredményeket hasznosítja a hírszerzés is, a nemzetközi lehallgatási rendszerek működtetik a nyelvazonosító és kulcsszókereső programokat. A szakszolgálatokhoz kerülő nagy mennyiségű lehallgatott anyag szortírozását, ellenőrzését ugyanis számítógépek végzik. Nem csak az elhárítás küszködik a szortírozás, a visszakeresés és azonosítás nehézségeivel. Az egyre nagyobb terjedelmű hangarchívumokban is nehéz a keresés. Számukra is segítséget jelenthet a felismerőrendszer bevezetése.
Milyen szakmai kérdéseket kell másként feltenniük és megválaszolniuk a nyelvészeknek ahhoz, hogy a számítógép is értelmezhető választ kaphasson a problémáira, kérdeztük Németh Gézától. Gépileg kezelhető paraméterekre van szükség, mondja. Tehát nem elég az az információ, hogy a kijelentő mondat eső jellegű, a példaszerű használható megfogalmazás: a négyszavas kijelentő mondat alapfrekvenciája 115 hertzről indul és 100 hertzen végződik. De azt is el kell dönteni a programozás során, hogy hányféle „a” hangot használjunk, hogy a hosszú magánhangzókat hosszúból vagy a rövid meghosszabbításából készítsük-e el. Mindez tervezés kérdése. Nyilvánvaló, hogy a „harang” vagy a „harangokkal” szó nem ugyanazt az „ng” hangkapcsolatot eredményezi. A legegyszerűbb, ha hangokat tanítunk meg a számítógépnek, bonyolultabb, ha hangpárokat, majd triádokat, tehát hármas hangkapcsolatokat.
A fonológiai megközelítések során kiderült, hogy az általában igaz szabályok nem mindig, csak bizonyos feltételek mellett igazak. A számítógép azonban könyörtelen, tehát végére kell járni a kivételeknek, a rendhagyásoknak is. Mert amint megoldanak egy nagy problémát, máris felsejlik mögötte a másik, egy finomabb, bonyolultabb kérdés. Németh Géza szerint a gépi beszédkeltés teljes és tökéletes megoldása amúgy is képtelenség, hiszen az ember sem képes mindenfajta szöveget értelmezni, helyesen felolvasni.
A számítógép persze csak akkor tudná mindenkor tökéletesen elvégezni a feladatát, ha nem felszínes szintaktikai információk alapján működne, hanem ismerné a kommunikációs célt és környezetet is. A könyvfelolvasó rendszer is csak akkor élvezhető, ha nem kizárólag a karaktereket, tehát a betűket ismeri fel, hanem el tudja különíteni a bekezdéseket, a fejezetcímeket. A stíluselemeket, a szabályokat, jellemzőket is be kell tehát építeni a rendszerbe. Egy általános beszédszintetizátor a nyolc–tíz éves gyermek szókincsét ismeri, ezt a szintet lehet elvárni tőle. A fejlesztés során azután tovább gazdagítható az ismerete. Talán soha senkinek nem jutott volna eszébe, hogy Magyarországon nincs elfogadott betűzési ajánlás, ha erre az informatikusok nem hívják fel a figyelmet. A név- és címfelolvasókban pedig erre nagy szükség lenne. Alma vagy Aladár, kérdezik a programozók a nyelvészektől, csakhogy erre bevált gyakorlat nincsen. Sőt egyes nyelvészek azon az állásponton vannak, hogy a betűzés szabad terület, nem lehet ezen a ponton megerőszakolni a nyelvhasználatot. Kár, hogy a számítógép nem tudja értékelni a liberális nyelvi szemléletet, konkrét válaszokat kér a kérdésekre.
A szakemberek már arról ábrándoznak, hogy a számítógép képes lesz két különböző nyelvű ember között is közvetlen kapcsolatot létesíteni. Míg azonban a beszédkeltéskor „csupán” az a feladat, hogy az emberek többsége által elfogadható és érthető kiejtést alkossanak, a beszédfelismerés, vagyis -felismertetés a legnehezebb fonetikai és számítógépes problémák közé tartozik. A beszéd változatossága ugyanis végtelen, és lehetetlenség olyan panelt alkotni, amelyik egy nyelvterületen belül mindenki beszédét megérti. A tévedés kockázata nagy, a személyi beszédazonosító rendszer becsapásához már az is elég, hogy aznap rekedtebben beszélünk a géphez.
A tapasztalatok azonban azt mutatják, hogy bölcsen teszik a fejlesztők, ha figyelembe veszik a környező társadalmi kívánalmakat, magyarázza Németh Géza. A beszédfelismerő rendszerek egyik népszerű kutatási területe a menetrendi tájékoztatás gépesítése. A hollandoknál bevezetett, jó műszaki megoldásokkal rendelkező rendszer megbukott, az olaszoknál ugyanaz fényes sikert aratott. Az olaszok hálásak voltak a gépnek azért, hogy nem kellett félórákat várniuk az információra, az elkényeztetett hollandok azonban szívesebben vették, ha gép helyett, mint addig is, kellemes női hang felel néhány másodperc múlva a kérdésükre. Nem mindegy tehát, hogy hol és milyen irányban indulnak tovább a kutatók. A fogyatékkal élőknek a beszélőgépek megjelenése óriási segítség, életüket teszi teljesebbé. A többség számára a kényelmet szolgálja. A kutatók azon dolgoznak, hogy a rendszer mind tökéletesebb legyen. Ehhez még inkább be kell hatolni a nyelv, a beszéd titkaiba, ki kell bogozni rejtett logikáját, meg kell ismerni törvényszerűségeit. Azután már nincs akadálya annak, hogy a mobiltelefonunk után megszólaljon a mosógépünk, a mikrosütőnk, sőt akár a cipőtalpunk is, és jelentse: kilyukadtam!

Ezt mondta Orbán Viktor Gyurcsány lemondásáról és válásáról