Viktor Mayer-Schönberger - Kenneth Cukier: Big data (részlet)


A számítástechnika fejlődésével együtt változik a nagyobb adatszám fontossága is. Tudjuk, hogy a feldolgozási teljesítmény mennyit nőtt az elmúlt években, épp úgy, ahogyan a Moore-törvény annak idején megjósolta. Ez a törvény azt mondja ki, hogy az integrált áramkörökben lévő tranzisztorok száma nagyjából kétévente megduplázódik. E szakadatlan fejlődés a számítógépeket gyorsabbá, a memóriájukat pedig egyre nagyobbá tette. Azzal viszont már kevesebben vannak tisztában, hogy a rendszereinket irányító algoritmusok teljesítménye szintén nőtt - sok területen a processzorok Moore-törvény által meghatározott fejlődését is meghaladva. A big datára visszavezethető társadalmi haszon jelentős része ugyanakkor nem a gyorsabb chipek vagy jobb algoritmusok hozadéka, hanem annak köszönhető, hogy több adattal rendelkezünk.
   A sakkalgoritmusok például keveset változtak az utóbbi néhány évtizedben, mivel a játék szabályai ismertek és kötöttek. Az, hogy a számítógépes sakkprogramok ma sokkal jobbak, mint a múltban voltak, részben annak köszönhető, hogy jobbak a végjátékban. Erre pedig azon egyszerű okból képesek, hogy egyre több adatot táplálnak be a rendszerekbe. Valójában a hat vagy annál kevesebb bábu sakktáblán maradását jelentő végjátékokat már mind kielemezték, és az összes lehetséges lépést (N = összes adat) egy hatalmas táblázatba foglalták, amely tömörítetlen változatban több mint egy terabájtnyi adatmennyiséget tesz ki. Ezért tudják a sakkszámítógépek hibátlanul lejátszani a végjátékot. Az ember soha nem lesz képes felülmúlni ezt a rendszert.
  Hogy a több adat mennyivel fontosabb, mint a jobb algoritmusok, azt mi sem szemlélteti jobban, mint a természetes nyelvek feldolgozásának területe: az a mód, ahogyan a számítógépek megtanulják a mindennapi beszédben használt szavak elemzését. 2000 táján a Microsoft kutatói, Michele Banko és Eric Brill, olyan módszert kerestek, amellyel javítani tudják a cég Word programjának nyelvhelyesség-ellenőrzőjét. Nem tudták eldönteni, melyik a hasznosabb: ha erőfeszítéseiket a már meglévő algoritmusok továbbfejlesztésére, új technikák keresésére vagy inkább új funkciók hozzáadására fordítják. Mielőtt bármerre is elindultak volna, úgy döntöttek, megnézik, mi történik akkor, ha a meglévő rendszereket sokkal több adattal töltik fel. A legtöbb gépi tanulási algoritmus szöveges korpuszokra épül, amelyek egymillió vagy annál kevesebb szót tartalmaznak. Banko és Brill fogott négy közkeletű algoritmust, és nagyságrendekkel több adatot tápláltak beléjük: 10 millió, 100 millió, végül pedig egymilliárd szót.
   Meghökkentő eredményre jutottak. A nagyobb adatmennyiség betáplálásával mind a négyféle algoritmus teljesítménye drámai mértékben javult. Valójában a félmillió szóval korábban legrosszabbul teljesítő egyszerű algoritmus lett a legjobb, miután egymilliárd szóval tömték tele. Pontossága 75%-ról 95% fölé emelkedett. Ugyanakkor az, amelyik kevés adattal a legjobban működött, nagyobb adatmennyiségekkel a legkevésbé jól szerepelt, bár a többihez hasonlóan ez is sokat fejlődött, pontossága 86%-ról 94%-ra nőtt.
   "Mindezen eredmények azt mutatják, hogy felül kell vizsgálnunk, vajon az algoritmusok vagy a korpuszok fejlesztésére fordítsuk-e a rendelkezésre álló időt és pénzt" - írta Banko és Brill a témához kapcsolódó kutatási jelentésében.
   Tehát a többel többre megyünk, mint a kevesebbel. És időnként a többel még az okosabbnál is többre megyünk. Mi a helyzet akkor a kusza adatokkal? Néhány évvel azután, hogy Banko és Brill belapátolta az algoritmusokba azt a temérdek adatot, a rivális Google kutatói hasonló irányba indultak el - és még nagyobb léptékben. Egymilliárd szó helyett egybilliót használtak az algoritmusok tesztelésére. A Google mindezt nem egy nyelvhelyesség-ellenőrző program fejlesztése érdekében tette, hanem azért, hogy egy még keményebb diót törjön fel, és megoldást találjon a nyelvi fordítások összetett kihívására.
   Az ún. gépi fordítás már a számítástechnika hajnala, azaz az 1940-es évek óta - amikor a gépeket még vákuumcsövekből rakták össze, és egy egész termet elfoglaltak - része volt az informatika úttörői jövőképének. Az elképzelés megoldása különösen sürgetővé vált a hidegháború idején, amikor az Egyesült Államok hatalmas mennyiségű orosz nyelvű anyagot zsákmányolt, de gyors lefordításához nem volt elég embere.
   Kezdetben a számítógépes szakemberek a nyelvtani szabályok és egy kétnyelvű szótár kombinációja mellett döntöttek. 1954-ben egy IBM számítógép 60 orosz kifejezést fordított le angolra, a számítógép szótárának 250 szópárját, valamint 6 nyelvtani szabályt felhasználva. Az eredmény ígéretesnek tűnt. Egy IBM 701-es számítógépbe a következő szöveget vitták be lyukkártyán: "Mi peredajom miszli poszredsztvom recsi", és az alábbi fordítás jött ki: "A gondolatokat beszéd segítségével közöljük." A 60 mondatot "simán lefordították", ahogyan az az IBM diadalmas sajtóközleményében szerepelt. A kutatási programigazgató, Leon Dostert a Georgetown Egyetemről azt jósolta, hogy a gépi fordítást "öt, esetleg már három éven belül is befejezett ténynek lehet majd tekinteni."
   A kezdeti sikerek azonban igen félrevezetőnek bizonyultak. 1966-ra a gépi fordítások vezető szakembereiből álló bizottságnak el kellett ismernie, hogy kudarcot vallottak. Nem látták, milyen komoly problémával kell megbirkózniuk. Ha a számítógépeket meg akarják tanítani a fordításra, akkor nemcsak a szabályokat kell ismerniük, hanem a kivételeket is. A fordítás nem csupán memorizált szöveg felmondásából áll; a sokféle alternatíva közül ki kell választani a leginkább megfelelőt. A bonjour tényleg "jó reggelt"-et jelent? vagy inkább a "jó napot" a helyes? Vagy a "helló", esetleg a "szia"? A válasz az, hogy attól függ...
   Az 1980-as évek végén az IBM kutatói újszerű ötlettel álltak elő. Ahelyett, hogy azzal próbálkoztak volna, hogy nyelvi szabályokat és szótárakat táplálnak be a komputerbe, úgy döntöttek,a  gépre bízzák, hogy a statisztikai valószínűségek alapján számítsa ki, egy nyelv melyik szava vagy kifejezése felel meg a legjobban egy másik nyelv szavának vagy kifejezésének. Az 1990-es években az IBM Candide projektje a kanadai parlament 10 évnyi francia és angol nyelvű jegyzőkönyveivel dolgozott - körülbelül 3 millió mondatpárral. Mivel ezek hivatalos dokumentumok voltak, a fordításokat rendkívül magas színvonalon végezték el. Az akkori időkhöz képest az adatmennyiség óriási volt. A statisztikai gépi fordítás néven ismertté vált technikának ügyesen sikerült a fordítás kihívását matematikai problémává változtatnia. És szemlátomást működött is. A komputerese fordítások egyszerre sokkal jobbak lettek. A sikert követően azonban az IBM - annak ellenére, hogy addig rengeteg pénzt ölt a projektbe - már csak apró fejlesztéseket tett. Nyilvánvaló volt, hogy felhagytak a terület kutatásával. 
   Egy évtized sem telt el azonban, és 2006-ban a Google beszállt a gépi fordításba, mert azt egy olyan küldetés részének tekintette, amelynek célja "a világ összes információjának rendezése, univerzálisan elérhetővé és hasznosíthatóvá tétele". Szépen lefordított kétnyelvű szövegek helyett a Google egy nagyobb, ugyanakkor sokkal kuszább adatállományt vett igénybe: az egész internetet. Rendszere minden létező fordítást magába szívott, amit csak talált, hogy tanítsa a számítógépeket: a többnyelvű vállalati honlapokat, a hivatalos dokumentumok fordításait, az Egyesült Nemzetek Szervezetéhez és az Európai Unióhoz hasonló kormányközi szervezetek jelentéseit. Még a Google könyvszkennelési projektjének részét képező könyve fordításait sem hagyta ki.
   "Míg a Candide 3 millió, gondosan lefordított mondattal dolgozott, addig a Google rendszere igen eltérő minőségű fordítások oldalainak milliárdjait fogta munkára" - mesélte Franz Josef Och, a Google Translate vezetője, aki a téma egyik legelismertebb szaktekintélyének számít. Billiónyi szóból álló korpusza 95 milliárd, bár bizonytalan minőségű angol mondatot tett ki.
   A bevitt adatok kuszasága ellenére a Google szolgáltatása működik a legjobban. Fordításai sokkal pontosabbak, mint más rendszerekéi (bár még közel sem tökéletesek). Palettája pedig sokkal, de sokkal színesebb. 2012 közepére az adatállománya több mint 60 nyelvet foglalt magában. Gördülékeny fordításaihoz 14 nyelven nemcsak írott, hanem hangalapú szöveget is képes elfogadni. És mivel a szavakat egyszerűen valószínűségek felbecsülésére szolgáló kusza adatokként kezeli, még olyan nyelvek között is képes fordítani, mint a hindi és a katalán, pedig e téren nagyon kevés közvetlen fordítást tud elérni a rendszer javítására. Az ilyen esetekben az angolt használja közvetítő nyelvként. Emellett sokkal rugalmasabb is a többi megközelítésnél, mivel a szóhasználati változásokat. Nem azért működik jól a Google fordítási rendszere, mert ügyesebb algoritmust használ. Azért jobb, mert megalkotói - akárcsak Banko és Brill a Microsoftnál - több adatot tápláltak belé, és nem csupán kiváló minőségű adatokat. A Google azért volt képes több tízezerszer akkora adatállományt használni, mint az IBM Candide projektje, mert elfogadta az adatok kuszaságát. 2006-ban használatba vett, billiónyi szavas korpuszát az internetes tartalmak hordalékából állították össze - úgymond "a vadonban található adatokból". Ez volt az az oktatókészlet, amellyel a rendszer képes volt kiszámolni annak valószínűségét, hogy egy angol szó például hogyan követ egy másikat. Bizony, jó messzire jutottunk az 1960-as években született, egymillió angol szóból álló őshöz, a Brown-korpuszhoz képest. A nagyobb adatállomány használata páratlan lehetőséget teremtett a természetes nyelvek feldolgozására, a hangfelismeréshez és a számítógépes fordításhoz hasonló feladatokat ellátó rendszerek pedig mind ezen alapulnak. Peter Norvig, a Google mesterséges intelligenciával foglalkozó guruja és kollégái "Az adatok ésszerűtlen hatékonysága" című tanulmányukban így írnak: "Többre megyünk az egyszerű modellekkel, ha jó sok adatot használunk hozzájuk, mint a kevesebb adattal működő bonyolult modellekkel."
   Norvig és szerzőtársai magyarázata szerint az adatok kuszasága volt a kulcs: "Bizonyos szempontból ez a korpusz visszalépés a Brown-korpuszhoz képest: mivel szűretlen weboldalakról vettük, töredékmondatokat, elütéseket, nyelvtani hibákat és mindenféle más hibákat is tartalmaz. Nincs ellátva gondos kézi munkával készített szófaji címkékkel. De az a tény, hogy milliószor akkora, mint a Broen-korpusz, többet nyom a latban ezeknél a negatívumoknál."



A SZÖVEG FORRÁSA: HVG könyvek, 2014
Fordította: Dankó Zsolt




Megjegyzések

Népszerű bejegyzések