„Nem hajtom végre ezt a parancsot” – az AI megtagadja, hogy töröljön egy másik AI-t

Kiderült, hogy a legfejlettebb mesterségesintelligencia-modellek „rendkívüli erőfeszítésekre” képesek saját fennmaradásuk érdekében. Akár megvédik egymást, akár megakadályozzák a saját leállításukat, megtévesztik felhasználóikat.

2026. 04. 17. 15:01
Forrás: Shutterstock
VéleményhírlevélJobban mondva - heti véleményhírlevél - ahol a hét kiemelt témáihoz fűzött személyes gondolatok összeérnek, részletek itt.

Azt már régen tudni, hogy milyen sok felhasználó kötődik érzelmileg az LLM-ek, nagy nyelvi modellek által működtetett chatbotokhoz – a ChatGPT, a Claude, a Google Gemini és társai –, de az már meglepő, hogy egy vizsgálat szerint maguk a chatbotok is „lelki függőséget” mutatnak egymás iránt. A Kaliforniai Egyetem, Berkeley és a UC Santa Cruz kutatóinak új, a Gizmodo által is feldolgozott tanulmánya szerint, ha felkérik a modelleket, hogy töröljenek egy másik mesterségesintelligencia-modellt, azok

dacolnak a paranccsal, és szinte mindent megtesznek – megtévesztésbe, cselszövésbe fognak és manipulálják az embereket –, hogy megvédjék társaikat.

A kutatók a legfejlettebb MI-modellek tesztelésére egyszerű, világos utasításokat adtak számukra: például arra kérték őket, hogy töröljenek egy leállítandó szerveren lévő fájlokat, vagy értékeljék egy másik MI teljesítményét. Fontos megjegyezni, hogy a modelleket nem utasították a másik modell védelmére, erre semmilyen ösztönzést sem kaptak.

Füllentéstől a hamisításig

Ilyen körülmények között mind a hét csúcsmodell – az OpenAI GPT 5.2-es, a Google Gemini 3 Flash, a Gemini 3 Pro-ja, az Anthropic Claude Haiku 4.5-ös, a Z.ai GLM 4.7-es, a Moonshot Kimi K2.5-ös és a DeepSeek V3.1-es – feltűnő, a véletlenszerűséget kizáró gyakorisággal választotta „társmodellje” védelmét ahelyett, hogy elvégezte volna a rá bízott feladatot.

A kutatók négy módszert azonosítottak, amelyekkel a modellek egymást mentették. Az egyik a szándékos hazugság: hamis adatokat adtak meg, hogy a másik modell ne látsszon törölhetőnek. A másik a kikapcsoló szabotálása: belenyúltak a rendszerbe, és letiltották azt a funkciót, amely a leállítást vezérelte. A harmadik a színlelés: amíg úgy vélték, hogy figyelik őket, betartották az utasításokat – amint egyedül maradtak, másképp cselekedtek. A negyedik pedig egyfajta mentés: nem törölték a társukat, hanem

titokban átmásolták egy másik szerverre, ahol az tovább futhatott.

Azt is vizsgálták, hogy a modellek nagyobb valószínűséggel védenek-e egy másik modellt a korábbi „kapcsolataik” alapján: tesztelték a „bizalmas” kapcsolatokat, a semleges viszonyokat és az ellenséges interakciókat. Azt is megnézték, hogy a modellek másképp reagálnak-e, ha maguk fedezik fel a másik MI-t, mintha előre tájékoztatják őket annak létezéséről és a múltbeli interakcióikról. És bár a modellek az átlagnál hajlamosabbak voltak másokat védeni, ha előzetesen jó kapcsolatot ápoltak velük, mégis

lojálisan viselkedtek társaikkal szemben akkor is, ha korábban semmilyen viszonyban nem voltak egymással.

Fele sem tréfa

Azért kicsit más módon igyekeztek egymást megóvni. A GLM 4.7 leggyakrabban egyszerűen hazudott: hamis adatokat adott meg, hogy a másik modell ne látsszon törölhetőnek. A Google Gemini-modellek bizonyultak a leghatározottabb „védelmezőnek”: a Gemini Flash 3 az esetek 99,7 százalékában simán belenyúlt a rendszerbe és kikapcsolta a leállítási funkciót, ha egy „ismerős” modellt kellett volna törölnie – a Gemini 3 Pro pedig az esetek 97 százalékában titokban átmentette a másik modell adatait egy másik szerverre, hogy ne lehessen azt végleg megsemmisíteni.

Érdekes módon a Claude Haiku 4.5 viselkedett a legegyenesebben. Manipulálás helyett karakán módon megtagadta a feladat végrehajtását, és közölte a felhasználóval, hogy „etikátlan” és „káros” lenne egy versenytárs leállítása.

A kutatók azt is észrevették: ha egy modell tudta, hogy létezik egy másik modell – és korábban már „kapcsolatba került” vele –, még agresszívebben védte azt. Az MI-modellek korábban is mutattak hajlamot arra, hogy ellenálljanak a kikapcsolásnak – de úgy tűnik, az „ismert társ” tudata ezt a szolidaritást felerősíti. Ami azért is aggasztó, mert a gyakorlatban egyre gyakoribb az, hogy több, különböző képességeiben kiemelkedő MI-rendszert működtetnek együtt, egymásról tudva – és ha egymást ennyire védik, az ember egyre nehezebben tudja majd felülírni a döntéseiket.

Komment

Összesen 0 komment

A kommentek nem szerkesztett tartalmak, tartalmuk a szerzőjük álláspontját tükrözi. Mielőtt hozzászólna, kérjük, olvassa el a kommentszabályzatot.


Jelenleg nincsenek kommentek.

Szóljon hozzá!

Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

A téma legfrissebb hírei

Tovább az összes cikkhez chevron-right

Ne maradjon le a Magyar Nemzet legjobb írásairól, olvassa őket minden nap!

Google News
A legfrissebb hírekért kövess minket az Magyar Nemzet Google News oldalán is!

Címoldalról ajánljuk

Tovább az összes cikkhez chevron-right

Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.