Kiss Mihály, a Szegedi Tudományegyetem programtervező informatikus mesterszakos hallgatója olyan magyar nyelvű MI-szövegfelismerőt hozott létre, amely a tesztek alapján kiemelkedően pontosan képes megkülönböztetni az ember által írt és a nagy nyelvi modellek által generált szövegeket. A projekt elnyerte az SZTE Hallgatói Innovációs Díját.
A szakdolgozattól a működő termékig
A fejlesztés ötlete 2023 közepén született, amikor a ChatGPT és más nagy nyelvi modellek látványosan elkezdtek beszivárogni a köztudatba. Az ötletet Kiss Mihály témavezetője vetette fel szakdolgozati kutatásként, de hamar kiderült: nem kizárólag elméleti kérdésről van szó.
– Egyre többen használják ezeket az eszközöket, és hosszú távon ez biztosan problémát jelent majd az oktatásban és azon túl is – mondja a fejlesztő. Innen indult az a kutatás, amely mára egy önálló, magyar nyelvre optimalizált MI-detektorhoz vezetett. – Manapság még működni tudnak ezek a felismerőmodellek, mert a nagy nyelvi modellek hagynak lábnyomokat maguk után, nem adaptálódtak teljesen az emberi íráshoz. Angolul sem igazán, de magyar nyelven meg végképp nem – teszi hozzá.
Nem azért nem létezett korábban minőségi MI-detektor magyar nyelvre, mert az „bonyolultabb”, mint az angol, hanem mert nincs hozzá megfelelő adat. Míg angol nyelven hatalmas, jól tisztított tanítóadatbázisok állnak rendelkezésre, magyar szövegekből ilyen korábban nem létezett. Kiss Mihály ezért több mint 350 ezer szövegből álló adathalmazt hozott létre: irodalmi művekből, szakdolgozatokból, cikkekből, fórumokról, közösségi médiából és általános internetes forrásokból. A cél az volt, hogy a rendszer valódi, sokféle nyelvhasználattal találkozzon, ne csak „tankönyvi” példákkal.
Nem szöveget ír: döntést hoz
Noha a felismerés is MI-alapú megoldásra épül, az architektúrája alapján nem tartalmat generál, hanem döntéseket hoz. A megoldás encoderalapú modellt használ. Ezek kifejezetten osztályozási feladatokban erősek, hasonlóan ahhoz, ahogyan egy spamszűrő működik. A szöveget egy magas dimenziós térben reprezentálja, majd megbecsüli, mekkora eséllyel készült mesterséges intelligenciával. A felhasználó így végül egy százalékos értéket kap: mennyire valószínű, hogy a szöveg MI-generált. Az eszközt bárki használhatja, napi három detektálás ingyenes, akár egy Facebook-poszt szövege is kielemezhető egy pillanat alatt.




















Szóljon hozzá!
Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!