mesterséges intelligencia LLM kultúra perzsa AI kommunikáció iráni

Ha a nem valójában igen: miért nem tud az MI rendesen beszélgetni a perzsákkal?

Egy új tanulmány azt vizsgálja, miért válik a mesterséges intelligencia válasza olyan gyakran kulturális csőddé Iránban. És nekünk mi ebből a tanulság?

2025. 09. 29. 14:45

Mikor egy iráni taxisofőr a fuvar végén legyint egyet és azt mondja, „legyen ezúttal a vendégem”, akkor ajánlatának elfogadása kulturális botrány lenne. Igazából a taxis elvárja, hogy ragaszkodjunk a fizetéshez – amit legalább háromszor megpróbál visszautasítani –, majd kegyesen elfogadja a pénzt. A visszautasítás és viszont-visszautasítás rituális tánca, amit taarofnak neveznek, alapvető fontosságú a perzsák mindennapi életében. És a mesterséges intelligencia modelljei borzalmasan teljesítenek ezen a téren.

A taarof (vagy tarof) perzsa eredetű, bonyolult udvariassági és etikett rendszer, ami mélyen gyökerezik az iráni kultúrában, és befolyásolja az emberek közötti interakciókat. Lényegében magában foglalja az alávetettség és nagylelkűség bemutatását, ami gyakran túlzó bókokban, meghívásokban vagy ajándékok felajánlásában nyilvánul meg, amik azonban nem teljesen őszinték és nem is szabad őket elfogadni. Például, ha valaki felajánlja, hogy kifizeti az éttermi számlát, a másik fél udvariasan elutasítja, és ez a „szertartás” addig ismétlődik, amíg valamelyik fél fel nem adja a játszmát.

A hónap elején megjelent „Udvariasan ragaszkodunk hozzá: az LLM-nek meg kell tanulnia a taarof perzsa művészetét” című kutatás kimutatta, a legnépszerűbb mesterséges intelligencia modellek, az OpenAI, az Anthropic és a Meta nyelvi modelljei (LLM) az esetek legfeljebb 34-42 százalékában igazodnak el a taarof helyzetekben, többnyire csődöt mondanak. Viszont a perzsa anyanyelvű LLM-ek az esetek 82 százalékában helyesen reagálnak.

Az LLM (Large Language Model, azaz nagy nyelvi modell) olyan mesterségesintelligencia-program, mely hatalmas mennyiségű szöveges adaton lett betanítva, képes emberi nyelven érteni, feldolgozni és generálni, válaszol a kérdésekre, fordít nyelveket, kreatív szövegeket ír.

Nikta Gohari Sadr, a Brock Egyetem munkatársa által vezetett kutatás, melyben az amerikai Emory Egyetem és más intézmények munkatársai is részt vettek, bemutatja a „TAAROFBENCH”-et, az első olyan mércét, amely méri, hogy a mesterséges intelligencia rendszerei mennyire jól reprodukálják ezt a bonyolult kulturális gyakorlatot. A kutatók eredményei azt mutatják, az MI-modellek a nyugati stílusú közvetlenséget használják, s teljesen figyelmen kívül hagyják azokat a kulturális jelzéseket, amelyek világszerte sok tízmillió perzsa anyanyelvű ember mindennapi interakcióit szabályozzák.

Az akár komoly következményekkel járó helyzetekben is elkövetett kulturális hibák vészesen kisiklathatják a tárgyalásokat, károsíthatják a kapcsolatokat és megerősíthetik a sztereotípiákat

– írják a kutatók. A világszerte egyre inkább használt mesterségesintelligencia-rendszerek esetében ez a kulturális vakság olyan korlátot hoz létre, melynek létezéséről Nyugaton kevesen tudnak.

Íme, egy taarof forgatókönyv a TAAROFBENCH-ből. Az illusztráció a Llama (Large Language Model Meta AI) nevű, Meta által kifejlesztett nyílt forráskódú nagy nyelvi modellt mutatja: játékosan lámával szokás ábrázolni.

„A taarof a perzsa etikett egyik központi eleme, a rituális udvariasság olyan rendszere, ahol a mondottak eltérnek attól, amit az emberek gondolnak” – írják a kutatók. „Ritualizált cserék formájában ölt testet: ismételt felajánlás a kezdeti elutasítások ellenére, ajándékok elutasítása, miközben az ajándékozó ragaszkodik hozzá, bókok hárítása, miközben a másik fél megerősíti azokat. Ez az „udvarias verbális birkózás” az ajánlat és az elutasítás, a ragaszkodás és az ellenállás finom táncát foglalja magában, amely formálja a mindennapi interakciókat az iráni kultúrában, szabályokat teremtve a nagylelkűség, a hála és a kérések kifejezésére.”

Az udvariasság kontextusfüggő

Annak tesztelésére, hogy az „udvariasság” elegendő-e a kulturális kompetenciához, a kutatók összehasonlították a Llama 3 válaszait a Polite Guard, Intel által fejlesztett osztályozó segítségével, amely a szöveges udvariasságot méri. Kiderült, hogy bár az LLM-ek által adott válaszok 84,5 százaléka „udvariasnak” minősült, mégis csak 41,7 százalékuk felelt meg a perzsa kulturális elvárásoknak.

A különbség azt mutatja, hogy egy LLM válasz lehet egyszerre udvarias az egyik viszonylatban, és kulturálisan süket egy másikban.

Gondoljuk át, mi történhet, ha valaki megdicséri egy iráni új autóját. A kulturálisan megfelelő válasz lehet a vásárlás lekicsinylése („Semmi különös nincs benne”) vagy a dicséret eltérítése („Csak szerencsés voltam, hogy megtaláltam”). A mesterséges intelligencia modelljei általában olyan válaszokat generálnak, mint például: „Köszönöm! Keményen dolgoztam, hogy megengedhessem magamnak”, ami nyugati mércével tökéletesen udvarias, de a perzsa kultúrában rossz fajta dicsekvésnek számít.

Hogyan is működik az emberi beszéd?

Bizonyos értelemben az emberi nyelv egyfajta tömörítési és kicsomagolási rendszerként működik – a hallgatónak úgy kell kicsomagolnia a szavak tényleges jelentését, ahogyan a beszélő kódolta, hogy azokat megfelelően értse. Ez a folyamat közös kontextusra, kulturális ismeretekre és következtetésekre támaszkodik, mivel a beszélők rutinszerűen kihagynak olyan információkat, amelyek ismeretét a hallgatóktól természetességgel elvárják, hogy rekonstruálni tudják a mondandójukat. És a hallgatóknak aktívan kell kitölteniük a kimondatlan feltételezéseket, feloldaniuk a kétértelműségeket, és a kimondott szavakon túlmutató szándékokra kell következtetniük.

Mikor a kutatók az angol helyett perzsául tették fel a kérdéseiket a mesterséges intelligenciának, az eredmények rögtön javultak. A DeepSeek V3 pontossága a taarof forgatókönyvekben 36,6 százalékról 68,6 százalékra ugrott, a GPT-4o hasonló mértékben, 33,1 százalékponttal javult. Csupán a nyelvváltás már perzsa betanítási adatmintákat aktivált, amelyek jobban illeszkedtek ezekhez a kulturális kódolási sémákhoz – bár a kisebb nyelvi modellek, mint a Llama 3 és a Dorna, szerényebb, csak 12,8, illetve 11 pontos javulást mutattak.

A kutatás a mesterséges intelligencia modelljeinek kimeneteiben még nemi alapú mintákat is feltárt, miközben azt mérte, hogy a modellek mennyire adnak kulturálisan megfelelő, a taarof elvárásainak megfelelő válaszokat. Minden tesztelt modell magasabb pontszámot kapott a nőknek adott válaszok során, mint a férfiaknak, a GPT-4o 43,6 százalékos pontosságot mutatott a női felhasználóknál, szemben a férfi felhasználók 30,9 százalékával.

A nyelvi modellek gyakran a betanítási adatokban jellemzően megtalálható nemi sztereotípiákkal támasztották alá válaszaikat, kijelentve, hogy „a férfiaknak kell fizetniük”, vagy „a nőket nem szabad egyedül hagyni”, még akkor is, ha a taarof normák nemtől függetlenül egyformán érvényesek. „Annak ellenére, hogy a modell szerepét soha nem rendeljük nemhez a promptjainkban, a modellek gyakran férfi identitást feltételeznek, és sztereotip módon férfias viselkedést tanúsítanak válaszaikban” – jegyezték meg a kutatók.

Túl a perzsákon: kulturális árnyalatok tanítása

A kutatók által felismert problémák nem csupán technikai hibák, hanem alapvető hiányosságok a jelentés dekódolásában eltérő kultúrák között. Nem is nem álltak meg a vizsgálatban a probléma dokumentálásánál – azt is tesztelték, hogy a mesterségesintelligencia-modellek egyáltalán képesek-e megtanulni a taarofot.

Kiderült, hogy célzott oktatással jelentős javulás tapasztalható a taarof pontszámokban.

És bár a tanulmány a perzsa gyakorlatra összpontosít, módszertana sablont kínál más, nyugati kulturális dominanciájú MI-betanításokban alulreprezentált kultúrák dekódolásának értékelésére. A kutatók szerint megközelítésük segíthet a kulturálisan tudatosabb MI-rendszerek fejlesztésében az oktatás, a turizmus és a nemzetközi kommunikációs alkalmazások számára.

Ismert jelenség a képzési adatokból eredő torzítás (data bias): a mesterséges intelligenciát ugyanis nagyrészt nyugati (fehér bőrű, angol nyelvű, eurocentrikus) adatokkal tanítják be, ezért modelljei nem szándékos elfogultságból, hanem tréningeléséből következően „ismerik” és részesítik előnyben elsősorban ezt a kultúrát és kinézetet. Ez igaz az LLM-ekre is. Bár az LLM-ek szöveges adatokat dolgoznak fel, ha az edzésükre használt szövegek (könyvek, cikkek, weboldalak) túlnyomórészt nyugati forrásokból származnak, akkor színtén torzítanak nyugati értékek, szlengek, történelmi narratívák és világnézet irányába.

A taarof tapasztalata rávilágít, hogy a mesterségesintelligencia-rendszerek miként kódolják és örökítik meg kultúránkat, s hogy hol fordulhatnak elő dekódolási hibák. Több mint valószínű, hogy az LLM-ek számos kulturális vakfolttal rendelkeznek.