Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatók – írják a Mediaworks megyei lapjai online felületeiken.
Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel – olvasható a SZTAKI közleményében.
A most elkészült magyar nyelvi elemzőrendszer már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik, használatával egyszerűbbé válik a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.
A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek által is értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email-értelmező rendszerekhez is
– idézik a közleményben Farkas Richárdot, a Szegedi Tudományegyetem kutatóját.
Kitérnek rá, hogy az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogyan kell értelmezniük.
A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az úgynevezett tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására.
Az ilyen rendszerek problémája, hogy alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatók.