Irány a ChatGPT: elkészült a magyar nyelvi modell, a PULI

Múlt novemberben felrobbant az internet, miután elérhetővé vált a legújabb nyelvi modell, a ChatGPT. Házi feladatok, vizsgadolgozatok készültek vele, ám hamar kiderültek a hibái is. A Magyar Kutatási Hálózat Nyelvtudományi Kutatóközpont magyar nyelvű nyelvi modellen dolgozik, a PULI demóverziója már elérhető. A háromnyelvű PULI GPTrio pedig a fejlesztés következő lépése.

2023. 09. 20. 5:10
2022 World Robot Conference
lugas
BEIJING, CHINA - AUGUST 18: A boy points to the AI robot Poster during the 2022 World Robot Conference at Beijing Etrong International Exhibition on August 18, 2022 in Beijing, China. The 2022 World Robot Conference kicked off on Thursday in Beijing. (Photo by Lintao Zhang/Getty Images) Fotó: Lintao Zhang
VéleményhírlevélJobban mondva - heti véleményhírlevél - ahol a hét kiemelt témáihoz fűzött személyes gondolatok összeérnek, részletek itt.

A magyar kutatókról ritkán gondoljuk, hogy vetekednek szilícium-völgyi társaikkal. Pedig számos fejlesztőt alkalmaznak kinn vagy éppen Magyarországon amerikai cégek, illetve a hazai kutatások is jól állnak, például a Magyar Kutatási Hálózat Nyelvtudományi Kutatóközpontjának munkatársai egy ChatGPT-hez hasonló nyelvi modell fejlesztésén dolgoznak. A PULI jelenleg még nem képes a ChatGPT-hez hasonló interaktív válaszadásra, hanem a korábbi nyelvi modellekhez hasonlóan megadott paraméterek alapján folytatja a megkezdett szöveget. Ezekben a rendszerekben az algoritmusok hatalmas szövegadatbázisból hoznak létre új írásokat a felhasználó instrukciói alapján. Ilyen nyelvi modelleket alkalmaznak például a gépi fordítók és a nyelvhelyesség-ellenőrzők is. A ChatGPT újdonsága volt, hogy kis mennyiségű szöveg beadásával nagy mennyiségű, releváns anyagot hoz létre, illetve fordítva, nagy mennyiségű szövegből alkot keveset.

lugas
Bár a nyelvi modellek virtuóz módon kommunikálnak, az általuk generált szövegek gyakran valótlan, téves információkat jelenítenek meg (Fotó: NurPhoto)

Váradi Tamás, a Kutatóközpont főigazgató-helyettese szerint a nyelvi modellek számos helyzetben a segítségünkre lehetnek, hiszen helyesen és folyékonyan fogalmaznak, ráadásul különböző stílusokat is megkülönböztetnek.

A ChatGPT képes például ügyfélszolgálati munkatársként udvarias, kimért és szakszerű válaszokat adni, de az sem jelent gondot, ha a holdra szállást vagy a magyar jog változását kell elmagyaráznia egy általános iskolásnak. Faragatlan, durva ember modorában is folytathatja a szöveget, sőt még mi is elképedtünk, hogy képes volt afáziás, mentális zavarral küzdő betegek beszédét is utánozni, különbséget téve a betegség egyes fokozatai között. A lányom esküvőjén mondott beszédemet a PULI nyelvmodellünk segítségével írtam meg, és nagy sikert arattam vele. Csak a végén árultam el a titkomat

 – meséli Váradi Tamás.

A PULI fejlesztői jelenleg is dolgoznak az emberi visszajelzésekből való tanulás megerősítésén, hogy beszélgetéshez hasonló kommunikációra is alkalmassá váljon a rendszer. A ChatGPT tanulságai nyomán tudják, hogy a téves adatok csökkentésében is jelentős előrelépésre van szükség, mivel az Open AI nyelvi modellje által generált szövegek gyakran valótlan, téves információkat jelenítenek meg.

 

Kell ez nekünk?

 

Sokakban felmerül a kérdés, hogy az eredetileg angol nyelvű, de magyarul is használható ChatGPT mellett miért szükséges a hazai fejlesztés. Ez részben szuverenitási kérdés. A saját fejlesztés jobban képes a hazai üzleti és társadalmi igényeket szolgálni. Másrészt a válasz részben a számokban rejlik. A nyelvi modellek annál jobb szövegeket tudnak előállítani, minél nagyobb adatbázisból, előre betáplált szövegekből merítenek.

Az a 128 milliónyi magyar nyelvű tanítóanyag, amivel a ChatGPT-t tanították, elenyésző a 183 milliárd angol szövegrészlet mellett. A PULI GPT–3SX nevű modell tanítását ezzel szemben 32 milliárd magyar szövegrésszel végeztük. A szövegekből nemcsak a nyelvtan és a szókészlet tanulható meg. A mindennapi nyelvhasználatot átszövi a kulturális, történelmi tudás és az adott nyelvterület mindennapjaira jellemző szóhasználat. Ezért érthető, hogy bár a ChatGPT egész jól bánik a magyar nyelvvel, a magyar emberek számára releváns kulturális tudást csak egy jóval nagyobb magyar adatbázison betanított helyi fejlesztéssel kaphatjuk meg

 – magyarázza Váradi Tamás.

A nyelvi modell továbbfejlesztett verziója a háromnyelvű PULI GPTrió, amely 41 milliárd magyar, 61 milliárd angol és 98 milliárd kínai szövegrészt tartalmaz. A különböző nyelvű adatok erősítik egymást, így egyik nyelvű rendszer tanul a másiktól. A nyár folyamán megszületett anyag feszegeti a kutatók rendelkezésére álló szerverek kapacitásait, így a következő lépés, hogy a PULI és a Komondor szuperszámítógép egymásra találjon. Utóbbi a Debreceni Egyetem eszköze, amely átadásakor a világ 199. legnagyobb teljesítményű komputere volt.

lugas
A mesterséges intelligencia segítségünkre lehet, de a végeredményt mindig az embernek kell elbírálnia (Fotó: Xinhua/AFP)

 

Az emberi kontroll kiemelt szerepe a nyelvi modelleknél

 

A nagyobb szókincs változatosabb fogalmazásra ad lehetőséget. A ChatGPT egyik legnagyobb hibája ugyanis a szóhasználat viszonylagos kiszámíthatósága, a mondatok szerkezeti sorrendjének nem mindig tudatos alakítása, a mondatszerkezetek viszonylagos egysíkúsága és a stílusváltozatok egyhangúsága. A PULI viszont virtuóz módon használja a magyar nyelvet, ugyanakkor szükséges emberi kontroll alatt tartani, mivel a tényekkel szabadon bánhat, ami különösen vállalati környezetben veszélyes. Fontos, hogy a cég milyen képet sugároz mind megszólításban és ügyfélkezelésben, mind tényszerűségben.

– A ChatGPT-t nem kifejezetten a magyar nyelvre tervezték. Az internetről veszi a szövegeket, amelyek minősége nem mindig tökéletes. A generatív mesterséges intelligencia kizárólag olyan minőségű válaszokat tud alkotni, amilyen színvonalú szövegek az adatbázisában vannak – teszi hozzá Bódi Zoltán Gábor, Magyarságkutató Intézet Nyelvtervezési Kutatóközpontjának tudományos főmunkatársa. – Valószínű, hogy nyelvi modellek átvesznek szövegelemzési, összefoglaló, szövegalkotási munkaelemeket, azonban kulcsfontosságú, hogy minden esetben az ember hozza meg a végső döntést. Ezek a rendszerek akkor lehetnek a barátaink, ha nem az emberi munkát akarjuk velük helyettesíteni. Az alkotó folyamatban a végeredményt mindig az embernek kell elbírálnia.

Borítókép: Világszerte egyre nagyobb teret hódít a mesterséges intelligencia (Fotó: Getty Images/Lintao Zhang)

 

A téma legfrissebb hírei

Tovább az összes cikkhez chevron-right

Ne maradjon le a Magyar Nemzet legjobb írásairól, olvassa őket minden nap!

Címoldalról ajánljuk

Tovább az összes cikkhez chevron-right

Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.