Véletlen-e a véletlen?

Mindentudás Egyeteme Az információelmélet bizonyos információtechnológiai feladatok gazdaságos megoldásának elvi határait és az e határokat közelítő kódolási eljárásokat foglalja egységbe. Ilyen feladat például az információ átvitele, illetve tárolása során az információ tömörítése és védelme, de ide sorolható az adatkezelés és az információ feldolgozása is. E feladatok együttesen a tág értelemben vett informatika témái – kezdte a Mindentudás Egyeteme e heti előadását Győrfi László, a BME számítástudományi és információelméleti tanszékének egyetemi tanára.

–

2004. 12. 11. 0:00

Az információ tömörítésének (a forráskódolásnak) két típusát különböztetjük meg. Az egyik a veszteségmentes – ezt adattömörítésnek is hívjuk –, a másik a veszteséges forráskódolás, amely megenged torzítást is a reprodukció során.
Az adattömörítés feladata, hogy egy üzenetsorozatot gazdaságosan reprezentáljon, vagyis úgy kódoljon, hogy egyrészt a kódolt sorozat minél rövidebb legyen, másrészt a kódsorozatból az üzenetsorozat egyértelműen reprodukálható legyen. Ilyen problémával találkozunk, ha például könyvet, programot, adatsorozatot kell tömöríteni. Képzeljük el, hogy a magyar szépirodalmat szeretnénk CD-re vinni, amikor nem közömbös, hogy ez hány CD-re fér el, tehát érdemes tömöríteni. Egyáltalán nem nehéz 1:10-es tömörítési arányt elérni, viszont tömörítéssel 10-szer kevesebb CD kell, mint tömörítés nélkül. Egy másik példa lehet, hogy mobilon szeretnénk szöveget átküldeni, s a kis adatsebességű mobilon akkor tudom mégis gyorsan átküldeni a szöveget, ha átküldés előtt tömörítem. Az előző példában tizedannyi idő alatt tudom átküldeni a tömörített üzenetet.
Mindenki számára világos, hogy a tömörítési aránynak, a tömöríthetőségnek van határa. Claude Shannon fedezte fel az adattömörítés természettörvényét, amikor kiszámította a tömörítési arány elvi alsó határát, a forrásentrópiát, és megadott olyan kódolási eljárásokat, amelyek ezt az elvi alsó határt elérik. A mindennapi gyakorlatban ilyen tömörítő eljárásokat használunk, amikor a PKZIP, az ARJ, a Compress tömörítőprogramot alkalmazzuk vagy a GIF képformátumot.
A veszteséges forráskódolás esetén nem cél a tökéletes reprodukció, vagyis megengedünk torzítást, de a cél továbbra is a gazdaságos, tömör reprezentáció. Mindennapi alkalmazásai a beszéd, zene, kép, videó tömörítése, például kép tömörítése esetén nyilván felesleges megkövetelni, hogy a reprodukált kép képpontról képpontra egyezzen meg az eredeti képpel, csupán azt szeretnénk, hogy szemmel ne érzékeljünk romlást. Ebben a feladatban két célfüggvényünk van. Az egyikkel mérjük a tömörítést, a másikkal a torzítást, vagyis azt, hogy a tömörítés utáni reprodukció mennyire hasonlít az eredetire. Ha két, egymásnak ellentmondó célunk van, nevezetesen alacsony értéken tartani mind a tömörítési arányt, mind a torzítást, akkor a probléma úgy kezelhető, ha az egyiket, például a torzítást egy előírt értéken rögzítjük, és emellett minimalizáljuk a tömörítési arányt. Az elvi határ ekkor is tisztázható, de az elvi határt közelítő kódok ma még nem ismertek. Ugyanakkor léteznek a gyakorlatban hatékony veszteséges tömörítő eljárások, amelyeket sikerrel alkalmaznak a mobiltelefonban és a kép, videó, zene kódolására használt JPEG, MPEG, MP3 szabványokban.
Az információ védelme jelentheti az információ sérülése elleni védelmet (csatornakódolás) vagy az adatvédelmet (titkosítás) vagy a hozzáférés-védelmet, illetve hitelesítést (digitális aláírás). Ha például interneten akarok egy banki tranzakciót lebonyolítani, akkor nyilván elvárom, hogy a megadott adatok pontosan legyenek továbbítva (hibajavító kódolás), más személy ne tudja meg ezeket az adatokat még akkor sem, ha az információtovábbítás nyilvános hálózaton, például mobil eszközön történik (hozzáférés-védelem), a bank számára pedig bizonyított legyen, hogy valóban én kezdeményeztem a tranzakciót (digitális aláírás).
A védelmi feladatok közül nézzük részletesen a csatornakódolást, más néven hibajavító kódolást, mégpedig először néhány hibajavító elvet és technikát. Az adótól a vevőbe kell eljuttatni az üzenetet egy fizikai közegen (vezeték, rádiós frekvenciasáv stb.) keresztül. A távközlő mérnök is ezzel a feladattal foglalkozik. Nevezetesen az adóba és a vevőbe olyan áramköröket, modemeket tervez, amelyek az adóban az üzenetekhez a közeghez illeszkedő jelalakokat rendelnek, illetve a vevőben a torzított jelalakokból döntenek a lehetséges üzenetekre.
A közeg zavarai miatt az adóban a modem bemenete és a vevőben a modem kimenete különbözhetnek. A távközlő mérnök feladata az, hogy ennek az eltérésnek a valószínűségét alacsony értéken tartsa. Itt kezdődik az információelmélet feladata, amikor a távközlő mérnök eredményét adottságként tekintjük, amelyen vagy nem tudunk, vagy nem akarunk javítani. Tudomásul vesszük, hogy adott egy többé-kevésbé megbízhatatlan eszköz, ezt nevezzük csatornának, és ennek segítségével akarunk megbízható átvitelt biztosítani.
A csatornakódolásnak két típusa van. Az első a hibajelző kódolás, amely még napjainkban is döntően jellemzi az adatátvitelt. Az adó az üzenetsorozatot blokkokra osztja, és minden blokkot ellát úgynevezett hibajelző (paritás-ellenőrző) karakterekkel. Ezt hívjuk redundanciának is. Az üzenetet és a paritás-ellenőrző karaktereket együtt kódszónak nevezzük. A vevő a vett blokkból kiszámolja a hibajelző karaktereket, és ha egyezést talál, akkor ezt nyugtázza az adónak, egyébként újraküldést kér. Ebben az esetben rendelkezésre áll egy visszairányú csatorna a nyugták számára. A modem is ezt az elvet követi. Vannak olyan kódok, például a Reed Solomon-kódok, amelyeknél m darab paritás-ellenőrző karakter esetén bármely legfeljebb m darab karakter meghibásodását képes jelezni.
A hibajavító kódolás akkor is használható, ha ilyen visszairányú csatorna nincs. Erre példa lehet az űrszonda problémája, ahol még ráadásul a nagy távolság miatt a jelszint jóval kisebb, mint a zajszint, tehát gyakori a hibázás. Ha t darab hiba történt, akkor 2t ismeretlenünk van, a t hiba helye és a t megsérült karakter. Lényegében ez az oka annak, hogy az előbb említett, m darab paritás-ellenőrző karaktert használó Reed Solomon-kód képes megtalálni m ismeretlent, tehát bármely legfeljebb m/2 darab hibát kijavítani.
Az eddig tárgyalt feladatokban az információ legfontosabb tulajdonsága az volt, hogy véletlen. Ha a tömörítendő adat nem lenne véletlen, azaz adott lenne, akkor nem kellene tömöríteni. Ha a hibázó csatorna nem lenne véletlen, akkor a javítás is triviális lenne, következésképp az információelmélet törvényei főleg a véletlen törvényeit használják fel, illetve fejlesztik tovább.
A véletlennel kapcsolatban a legtöbb ember gyanakszik, hiszen az egyrészt jelenthet szerencsét, ami elkerüli, másrészt jelenthet bajt, katasztrófát, ami viszont megtalálja. A valószínűségszámítás a véletlen tömegjelenségek törvényeit tárja fel, ugyanakkor egy szuverén egyén nem szereti, ha a tömeg egy jelentéktelen pontjaként kezelik, tehát elsőre úgy tűnik, hogy számára a valószínűségszámítás érdektelen. Ennek az ellenkezőjéről szeretnék mindenkit meggyőzni.
A klasszikus valószínűségszámítás főleg a szerencsejátékok, illetve a matematikai statisztika bizonyos problémáival foglalkozott. Ez utóbbi esetén általában kevés adatból próbáltak törvényszerűséget levezetni, azaz jellegzetesen olyan megállapításokat, amelyek nagy, körülbelül 95 százalékos biztonsággal igazak. Kérdés az, hogy ez a 95 százalék tényleg nagy-e az egyén szempontjából, aki ezt a törvényszerűséget fel akarja használni? Ha nyáridőben a kedvenc meteorológusom reggel azt mondja, hogy a zápor valószínűsége 5 százalék, akkor ez számomra csak annyit mond, hogy vagy esik, vagy nem, hiszen ha bőrig áztam, akkor nem vigasztal engem, hogy ennek pici volt a valószínűsége. A valószínűségszámítás jelentősége ott kezdődik, amikor a törvényszerűség helyett törvény van, vagyis a valószínűből majdnem biztos – pestiesen szólva tuti – lesz. Mindenkinek van egy tapasztalati fogalma a tutiról. Az, hogy nem lesz hármas találatom a lottón, az valószínű. (A hármas találat valószínűsége körülbelül 0,0008.) Már szubjektív dolog az, hogy nem lesz négyes találatom, az tuti, vagy ezt csak az ötös találatra mondom. (A négyes találat valószínűsége körülbelül az ötösé.) Törvény alatt a későbbiekben a tutit értem, vagyis amikor a véletlen tömegjelenséggel kapcsolatban ilyen értelemben eltűnik a véletlen.
A valószínűségszámítás legfontosabb törvénye a nagy számok törvénye, amely szerint, ha egy véletlen esemény bekövetkezésére „sok” kísérletet végzünk, és kiszámítjuk a bekövetkezések számának és a teljes kísérlethossz arányát, akkor ez az arány „közel” lesz egy számhoz, mégpedig a véletlen esemény valószínűségéhez. Kérdés, hogy mit jelent a „sok”, és mit jelent a „közel”. Lássunk erre egy példát! Egy képzeletbeli ország parlamenti választásának az estéjén a két nagy párt elnöke az urnazáráskor szeretné tudni, hogy mi a listás szavazás eredménye. Tegyük fel, hogy az erőviszonyok eléggé kiegyenlítettek, például egy elnök legfeljebb 49 százalékos eredmény esetén is szeretné ezt biztosan tudni este 7-kor, és a felmérés akkor hibás, ha az legalább 50 százalékos, mivel ekkor túl korán suttogja szemlesütve világgá, hogy „győztünk”. Megfordítva, ha legalább 51 százalékos eredményt ér el, de a felmérés legfeljebb 50 százalékos, akkor is hibázunk, hiszen ekkor az elnök feleslegesen gratulál az ellenfelének. Egy ilyen kiélezett helyzetben tehát a tűrés 1 százalék. Kérdés, hogy egy exit poll felmérés során hány szavazót kell megkérdezni ahhoz, hogy 1 százalékos tűréssel tuti eredményt kapjunk. Bizonyítható, hogy adott tűrés mellett a téves következtetés valószínűsége, a hibavalószínűség a mintanagyságnak exponenciálisan gyorsan csökkenő függvénye. Így elborzasztó mintanagyságok adódnak, 10–4 százalékos hibavalószínűséghez 34 000 szavazót kell megkérdezni, mégpedig szigorúan véletlenszerűen, azaz a választói névjegyzékből 34 000 nevet kisorsolni, megkeresni a szavazókörzetét, és abból a szavazókörzetből valakit megkérdezni.
Claude Shannon (1916–2001) 1948-ban publikált cikkében 32 évesen mind a forráskódolás, mind a csatornakódolás esetén felfedezte az elvi határt, a „fénysebességet”, és ő bizonyította elsőként, hogy létezik tökéletes titkosító. Párhuzamosan szerezte egyetemi fokozatait a matematika és a villamosmérnök szakon, ő tervezte meg annak a telefonnak a titkosítását, amelyen Roosevelt és Churchill a második világháborúban beszélgetett.
Shannon – véleményem szerint – a csatornakódolás esetén volt a legmerészebb, a legzseniálisabb. Felfedezte, hogy az elvi határ szempontjából nem feltétlenül kell a kihasználtság csökkentésével fizetni a hibavalószínűség csökkentéséért. Felfedezte, hogy létezik a kihasználtságnak egy szintje, ezt nevezzük C csatornakapacitásnak úgy, hogy ha a rögzített kihasználtságot C alatt tartjuk, akkor az üzenethossz növelésével található olyan kód, hogy a dekódolás hibavalószínűsége tetszőlegesen kicsi legyen.
Joggal vetődik fel az a kérdés, hogy miért nem működik a valamit valamiért elv, a hibavalószínűség leszorításához miért nem kell a kihasználtságot lerontani. Shannon itt a véletlent többszörösen is munkára fogta. Egyrészt a kódolás bevezetésével egy ügyes kísérletet tervezett, ahol a véletlenszerűen hibázó csatorna a kísérlet egy komponense, másrészt a jó kód létezését egy ravasz véletlen kódválasztással bizonyította.
Számomra bámulatos Shannon képzelőereje és absztrakciós készsége. A nagy tudományos felfedezésekhez többnyire egy új, az addigi elméletekkel ütköző tapasztalat vezetett, márpedig 1948-ban egyetlenegy példa létezett digitális kommunikációra: a távíró, amelynél viszont nem volt szigorú előírás a hibavalószínűségre. A XX. század tudománytörténete minőségileg más, új gondolkodási technikákat eredményezett. Gondoljunk arra például, hogy egészen Descartes-ig úgy vélték, hogy az egyenletes mozgás fenntartásához is erőre van szükség, ugyanis nem tudtak ez ideig olyan pontosan sebességet mérni, hogy ennek a kiinduló feltételnek, hipotézisnek a hibája kiderüljön. Ezek után viszont könnyű dolga volt Newtonnak, hiszen csak a differenciálszámítást kellett kidolgoznia, majd kimennie az almáskertbe. Ugyanakkor még a XX. századi elméleti fizika nagyszerű eredményei között is csak elvétve akad olyan törvény, amely addig nem tapasztalt jelenségről szólt, azaz egy elméleti modell alapján először megjósolták a jelenséget, és csak utána „mérték ki” laboratóriumban.
Shannon az információtechnológia természettörvényeit akkor fedezte fel, amikor még nem is létezett digitális távközlés. A szóban forgó jelenségeket neki „fejben” kellett lejátszania. Nyilván történelmietlen dolog eljátszani azzal a gondolattal, hogyan alakult volna ez a diszciplína, ha Shannon meg sem születik. Meggyőződésem, hogy a csatornakapacitást máig sem találták volna fel, hiába az eddig összegyűlt tapasztalat a digitális távközlés területén.

A fenti szöveg a december 6-án elhangzott előadás rövidített változata. Megtekinthető december 11-én (szombaton) 9.40-kor a Duna Televízióban és 12-én (vasárnap) 13.40-kor az MTV, valamint 22.50-kor az M2 műsorán. A következő előadást december 13-án 19.30-tól a Budapesti Műszaki és Gazdaságtudományi Egyetem Kozma László termében (Budapest XI., Magyar tudósok körútja 2.) Maróth Miklós tartja Az arabok mint a görög tudományok örökösei címmel. Az előadások teljes szövegét a hozzászólásokkal és a vitával együtt a www.mindentudas.hu weblapon találják meg az érdeklődők.