Sokakban felmerül a kérdés, hogy az eredetileg angol nyelvű, de magyarul is használható ChatGPT mellett miért szükséges a hazai fejlesztés. Ez részben szuverenitási kérdés. A saját fejlesztés jobban képes a hazai üzleti és társadalmi igényeket szolgálni. Másrészt a válasz részben a számokban rejlik. A nyelvi modellek annál jobb szövegeket tudnak előállítani, minél nagyobb adatbázisból, előre betáplált szövegekből merítenek.
Az a 128 milliónyi magyar nyelvű tanítóanyag, amivel a ChatGPT-t tanították, elenyésző a 183 milliárd angol szövegrészlet mellett. A PULI GPT–3SX nevű modell tanítását ezzel szemben 32 milliárd magyar szövegrésszel végeztük. A szövegekből nemcsak a nyelvtan és a szókészlet tanulható meg. A mindennapi nyelvhasználatot átszövi a kulturális, történelmi tudás és az adott nyelvterület mindennapjaira jellemző szóhasználat. Ezért érthető, hogy bár a ChatGPT egész jól bánik a magyar nyelvvel, a magyar emberek számára releváns kulturális tudást csak egy jóval nagyobb magyar adatbázison betanított helyi fejlesztéssel kaphatjuk meg
– magyarázza Váradi Tamás.
A nyelvi modell továbbfejlesztett verziója a háromnyelvű PULI GPTrió, amely 41 milliárd magyar, 61 milliárd angol és 98 milliárd kínai szövegrészt tartalmaz. A különböző nyelvű adatok erősítik egymást, így egyik nyelvű rendszer tanul a másiktól. A nyár folyamán megszületett anyag feszegeti a kutatók rendelkezésére álló szerverek kapacitásait, így a következő lépés, hogy a PULI és a Komondor szuperszámítógép egymásra találjon. Utóbbi a Debreceni Egyetem eszköze, amely átadásakor a világ 199. legnagyobb teljesítményű komputere volt.

Az emberi kontroll kiemelt szerepe a nyelvi modelleknél
A nagyobb szókincs változatosabb fogalmazásra ad lehetőséget. A ChatGPT egyik legnagyobb hibája ugyanis a szóhasználat viszonylagos kiszámíthatósága, a mondatok szerkezeti sorrendjének nem mindig tudatos alakítása, a mondatszerkezetek viszonylagos egysíkúsága és a stílusváltozatok egyhangúsága. A PULI viszont virtuóz módon használja a magyar nyelvet, ugyanakkor szükséges emberi kontroll alatt tartani, mivel a tényekkel szabadon bánhat, ami különösen vállalati környezetben veszélyes. Fontos, hogy a cég milyen képet sugároz mind megszólításban és ügyfélkezelésben, mind tényszerűségben.




















Szóljon hozzá!
Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!