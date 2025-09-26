Rendkívüli

Önállóan gondolkodik, döntéseket hoz a Google új, MI vezérelte robotja

Nem ez az első robot, amit mesterséges intelligencia irányít. Míg azonban elődei speciális feladatokra voltak betanítva, és csak korlátozottan tudtak reagálni váratlan, előre nem programozott helyzetekre, ez ért, tanul, beszél, dönt, cselekszik.

Bíró Zoltán István
2025. 09. 26. 14:50
Apollo robot Forrás: Apptronik
A robotika legújabb története már tele van olyan gépekkel, amelyeket mesterséges intelligencia modellek irányítanak – gondoljunk csak az ipari robotokra vagy a korábbi, speciális célú kutatási robotokra.

A tegnapi Google DeepMind bejelentés, hogy Gemini Robotics 1.5 néven mesterséges intelligenciával szerelt, fejlett gondolkodási képességekkel rendelkező ügynököket hoznak a fizikai világba, lehetne csak egy szikár sajtóhír a napi sok tucat robotos közül. Valójában azonban – bármilyen elcsépelt fordulat is – ezúttal valódi mérföldkőhöz értünk: önállóan gondolkodik, döntéseket hoz az MI vezérelte robot.

Mi az, hogy ügynök és mit jelent a gyakorlatban ez az egész?

Az „ügynök” (agent) kifejezés a modern mesterséges intelligencia és a robotika egyik kulcsfontosságú fogalma. Leegyszerűsítve, a Gemini Robotics 1.5 viszonylatában az ügynök fogalma két alapvető részt takar.

1. Az MI-agy

Az ügynök kifejezés ebben a kontextusban nem csupán egy programot, hanem autonóm döntéshozó rendszert jelent:

Érzékelés: képes a külvilágot értelmezni (látás, hang, tapintás adatok alapján) – ez a robot „érzékelése”.

Tervezés és gondolkodás: ez a legfontosabb ügynöki képesség. Tud egy magas szintű célt (például „főzz kávét”) több, logikus lépésre bontani anélkül, hogy minden egyes mozdulatnál új utasításra lenne szüksége. Ezt hívják hosszú távú feladattervezésnek (long-horizon planning).

Eszközhasználat: szükség esetén alkalmaz akár digitális eszközöket, például elindít egy speciális fogást végrehajtó modellt, keresést végez a Google-on, vagy futtat egy speciális robotvezérlő API-t (parancskészlet vagy digitális interfész), hogy megoldjon egy problémát.

Cselekvés: döntéseit átalakítja motorvezérlő parancsokká, amelyekkel fizikai testét irányítja.

2. A fizikai rész, vagyis a robot teste

Ez a fejlett MI és a robotmechanika együttese, a mesterséges intelligenciával működő agy és fizikai test fúziója. Esetünkben két roboton mutatják be, a humanoid Apolloval (borítóképükön) és az ALOHA-val, a kétkarú robottal.

Mit látunk a bemutató videókon?

A Gemini Robotics mesterséges intelligencia modellje „mozgáskimeneti funkcióval” rendelkezik, hogy a robotok vezérelhetők legyenek, s pusztán szóbeli parancsok alapján (nem előre programozottan!) különféle műveleteket hajtsanak végre. A modell világismeretének köszönhetően kiválóan reagál képzésben még soha nem látott új tárgyakra, sohasem hallott, változatos parancsokra és önállóan feltalálja magát ismeretlen környezetekben.

Még júniusban mutatta be a Google a Gemini Robotics On-Device-t, ami internetkapcsolat nélkül is képes működni. Rendkívül pontos mozgásokra képes, például megérti a természetes nyelvű utasításokat és kinyitja egy táska cipzárját. Mivel nem interneten keresztül működik, hatékony az alacsony késleltetést igénylő feladatokban.

Ezután jött a tegnap, szeptember 25-én bemutatott Robotics 1.5 modell.

A Google DeepMind által kiadott demófilmben a Gemini Robotics 1.5-tel felszerelt (mondhatni „új agyat” kapott) robotkar többek között azt a szóbeli utasítást kapja, hogy háromféle gyümölcsöt válogasson szét azonos színű tányérokra. A robotkar szóban válaszol, értelmezi a helyszínt és a feladatot, s önállóan végrehajtja:

Mikor a „szennyes ruhák szín szerinti szétválogatása” feladatot kapja, szín szerint szétválogatja a ruhákat, a fehér ruhákat fehér kosarakba, a színes ruhákat pedig fekete kosarakba helyezi. Azzal sem lehet összezavarni, ha a kosarakat közben áthelyezik vagy felcserélik.

Ha azt a szóbeli utasítást kapja, hogy „válogasd szét a szemetet az aktuális tartózkodási helyed szerint”, a robot digitális kereséssel ellenőrzi a helyszínt, információkat szerez a válogatással kapcsolatban, és ennek megfelelően válogatja szét az előtte lévő szemetet.

Képes vizuálisan megérteni a világot, átgondolni és végrehajtani a feladat elvégzéséhez szükséges műveleteket: mérlegel, autonóm módon elhatározza, hogy adatokat gyűjt, és utána cselekszik.

Mivel robotok már sokféle formában és méretben kaphatók, eltérő érzékelési képességekkel és nagyon különböző szabadságfokkal, eddig nehéz volt az egyik robot által megtanultakat átvinni egy másikra, gyakran újraképzésre volt szükség.

Az 1.5-ös ezzel szemben fejlett tanulási képességekkel rendelkezik, nem kell majd az egyes robotokhoz igazítani a mesterséges intelligencia modelleket.

A Google az 1.5-öt olyan autonóm „ágensként” írja le, amely „gondolkodik, mielőtt cselekszik”. Sundar Pichai vezérigazgató szerint

mindez lehetővé teszi a robotok számára, hogy tisztán gondolkodjanak, előre tervezzenek, digitális eszközöket, például keresést használjanak, és átvigyék a tudásukat az egyik robottípusról a másikra. Ami alapvető lépés a valóban hasznos, általános célú robotok felé.

 

