A magyar kutatókról ritkán gondoljuk, hogy vetekednek szilícium-völgyi társaikkal. Pedig számos fejlesztőt alkalmaznak kinn vagy éppen Magyarországon amerikai cégek, illetve a hazai kutatások is jól állnak, például a Magyar Kutatási Hálózat Nyelvtudományi Kutatóközpontjának munkatársai egy ChatGPT-hez hasonló nyelvi modell fejlesztésén dolgoznak. A PULI jelenleg még nem képes a ChatGPT-hez hasonló interaktív válaszadásra, hanem a korábbi nyelvi modellekhez hasonlóan megadott paraméterek alapján folytatja a megkezdett szöveget. Ezekben a rendszerekben az algoritmusok hatalmas szövegadatbázisból hoznak létre új írásokat a felhasználó instrukciói alapján. Ilyen nyelvi modelleket alkalmaznak például a gépi fordítók és a nyelvhelyesség-ellenőrzők is. A ChatGPT újdonsága volt, hogy kis mennyiségű szöveg beadásával nagy mennyiségű, releváns anyagot hoz létre, illetve fordítva, nagy mennyiségű szövegből alkot keveset.
Váradi Tamás, a Kutatóközpont főigazgató-helyettese szerint a nyelvi modellek számos helyzetben a segítségünkre lehetnek, hiszen helyesen és folyékonyan fogalmaznak, ráadásul különböző stílusokat is megkülönböztetnek.
A ChatGPT képes például ügyfélszolgálati munkatársként udvarias, kimért és szakszerű válaszokat adni, de az sem jelent gondot, ha a holdra szállást vagy a magyar jog változását kell elmagyaráznia egy általános iskolásnak. Faragatlan, durva ember modorában is folytathatja a szöveget, sőt még mi is elképedtünk, hogy képes volt afáziás, mentális zavarral küzdő betegek beszédét is utánozni, különbséget téve a betegség egyes fokozatai között. A lányom esküvőjén mondott beszédemet a PULI nyelvmodellünk segítségével írtam meg, és nagy sikert arattam vele. Csak a végén árultam el a titkomat
– meséli Váradi Tamás.
A PULI fejlesztői jelenleg is dolgoznak az emberi visszajelzésekből való tanulás megerősítésén, hogy beszélgetéshez hasonló kommunikációra is alkalmassá váljon a rendszer. A ChatGPT tanulságai nyomán tudják, hogy a téves adatok csökkentésében is jelentős előrelépésre van szükség, mivel az Open AI nyelvi modellje által generált szövegek gyakran valótlan, téves információkat jelenítenek meg.
Kell ez nekünk?
Sokakban felmerül a kérdés, hogy az eredetileg angol nyelvű, de magyarul is használható ChatGPT mellett miért szükséges a hazai fejlesztés. Ez részben szuverenitási kérdés. A saját fejlesztés jobban képes a hazai üzleti és társadalmi igényeket szolgálni. Másrészt a válasz részben a számokban rejlik. A nyelvi modellek annál jobb szövegeket tudnak előállítani, minél nagyobb adatbázisból, előre betáplált szövegekből merítenek.
Az a 128 milliónyi magyar nyelvű tanítóanyag, amivel a ChatGPT-t tanították, elenyésző a 183 milliárd angol szövegrészlet mellett. A PULI GPT–3SX nevű modell tanítását ezzel szemben 32 milliárd magyar szövegrésszel végeztük. A szövegekből nemcsak a nyelvtan és a szókészlet tanulható meg. A mindennapi nyelvhasználatot átszövi a kulturális, történelmi tudás és az adott nyelvterület mindennapjaira jellemző szóhasználat. Ezért érthető, hogy bár a ChatGPT egész jól bánik a magyar nyelvvel, a magyar emberek számára releváns kulturális tudást csak egy jóval nagyobb magyar adatbázison betanított helyi fejlesztéssel kaphatjuk meg
– magyarázza Váradi Tamás.
A nyelvi modell továbbfejlesztett verziója a háromnyelvű PULI GPTrió, amely 41 milliárd magyar, 61 milliárd angol és 98 milliárd kínai szövegrészt tartalmaz. A különböző nyelvű adatok erősítik egymást, így egyik nyelvű rendszer tanul a másiktól. A nyár folyamán megszületett anyag feszegeti a kutatók rendelkezésére álló szerverek kapacitásait, így a következő lépés, hogy a PULI és a Komondor szuperszámítógép egymásra találjon. Utóbbi a Debreceni Egyetem eszköze, amely átadásakor a világ 199. legnagyobb teljesítményű komputere volt.
Az emberi kontroll kiemelt szerepe a nyelvi modelleknél
A nagyobb szókincs változatosabb fogalmazásra ad lehetőséget. A ChatGPT egyik legnagyobb hibája ugyanis a szóhasználat viszonylagos kiszámíthatósága, a mondatok szerkezeti sorrendjének nem mindig tudatos alakítása, a mondatszerkezetek viszonylagos egysíkúsága és a stílusváltozatok egyhangúsága. A PULI viszont virtuóz módon használja a magyar nyelvet, ugyanakkor szükséges emberi kontroll alatt tartani, mivel a tényekkel szabadon bánhat, ami különösen vállalati környezetben veszélyes. Fontos, hogy a cég milyen képet sugároz mind megszólításban és ügyfélkezelésben, mind tényszerűségben.
– A ChatGPT-t nem kifejezetten a magyar nyelvre tervezték. Az internetről veszi a szövegeket, amelyek minősége nem mindig tökéletes. A generatív mesterséges intelligencia kizárólag olyan minőségű válaszokat tud alkotni, amilyen színvonalú szövegek az adatbázisában vannak – teszi hozzá Bódi Zoltán Gábor, Magyarságkutató Intézet Nyelvtervezési Kutatóközpontjának tudományos főmunkatársa. – Valószínű, hogy nyelvi modellek átvesznek szövegelemzési, összefoglaló, szövegalkotási munkaelemeket, azonban kulcsfontosságú, hogy minden esetben az ember hozza meg a végső döntést. Ezek a rendszerek akkor lehetnek a barátaink, ha nem az emberi munkát akarjuk velük helyettesíteni. Az alkotó folyamatban a végeredményt mindig az embernek kell elbírálnia.
Borítókép: Világszerte egyre nagyobb teret hódít a mesterséges intelligencia (Fotó: Getty Images/Lintao Zhang)