A robotika legújabb története már tele van olyan gépekkel, amelyeket mesterséges intelligencia modellek irányítanak – gondoljunk csak az ipari robotokra vagy a korábbi, speciális célú kutatási robotokra.
A tegnapi Google DeepMind bejelentés, hogy Gemini Robotics 1.5 néven mesterséges intelligenciával szerelt, fejlett gondolkodási képességekkel rendelkező ügynököket hoznak a fizikai világba, lehetne csak egy szikár sajtóhír a napi sok tucat robotos közül. Valójában azonban – bármilyen elcsépelt fordulat is – ezúttal valódi mérföldkőhöz értünk: önállóan gondolkodik, döntéseket hoz az MI vezérelte robot.
Mi az, hogy ügynök és mit jelent a gyakorlatban ez az egész?
Az „ügynök” (agent) kifejezés a modern mesterséges intelligencia és a robotika egyik kulcsfontosságú fogalma. Leegyszerűsítve, a Gemini Robotics 1.5 viszonylatában az ügynök fogalma két alapvető részt takar.
1. Az MI-agy
Az ügynök kifejezés ebben a kontextusban nem csupán egy programot, hanem autonóm döntéshozó rendszert jelent:
Érzékelés: képes a külvilágot értelmezni (látás, hang, tapintás adatok alapján) – ez a robot „érzékelése”.
Tervezés és gondolkodás: ez a legfontosabb ügynöki képesség. Tud egy magas szintű célt (például „főzz kávét”) több, logikus lépésre bontani anélkül, hogy minden egyes mozdulatnál új utasításra lenne szüksége. Ezt hívják hosszú távú feladattervezésnek (long-horizon planning).
Eszközhasználat: szükség esetén alkalmaz akár digitális eszközöket, például elindít egy speciális fogást végrehajtó modellt, keresést végez a Google-on, vagy futtat egy speciális robotvezérlő API-t (parancskészlet vagy digitális interfész), hogy megoldjon egy problémát.
Cselekvés: döntéseit átalakítja motorvezérlő parancsokká, amelyekkel fizikai testét irányítja.
2. A fizikai rész, vagyis a robot teste
Ez a fejlett MI és a robotmechanika együttese, a mesterséges intelligenciával működő agy és fizikai test fúziója. Esetünkben két roboton mutatják be, a humanoid Apolloval (borítóképükön) és az ALOHA-val, a kétkarú robottal.