Földvári István: Találmány idealistáknak és üzletembereknek - a grid (2006)


Egy hagyományos PC a nap 95%-ában nem végez munkát


Jelenleg tizenkét nyilvános, bárki számára elérhető grid, vagyis az otthoni PC-k kapacitását is kihasználó kutatási projekt fut a világban. Ezek közül a legfrissebb egy magyar kezdeményezés, mely a számrendszer-dimenziókat igyekszik feltérképezni. A grid technológiát használják többek között klímakutatásra, gyógyszeripari projektekhez, de még az esetleges földön kívüli civilizációk nyomainak keresésére is. A számrendszer dimenzió-kutatás tehát csak egy a grid számos alkalmazási lehetősége közül.
 

Mi is az a grid?



A grid története 1995-ben kezdődött, amikor is 17 észak-amerikai szuperszámítógépet kötöttek hálózatba, leginkább azért, hogy kiderítsék: egymástól nagy földrajzi távolságra lévő számítógépek számolási és tárolási kapacitásait a szélessávú adatátvitel segítségével fel tudják-e használni egyetlen, közös feladat elvégzésére.

   Ma a nyilvános gridekhez egy teljesen átlagos teljesítményű géppel, otthonról is csatlakozhat bárki egy program letöltésével. Ezek a hétköznapi felhasználók önkéntesen felajánlott kapacitást bocsátanak a kutatók rendelkezésére, akik egy szoftverrel szétküldik az egymástól bármilyen távolságra lévő, ugyancsak a program által hálózatba integrált számítógépekre a számítási feladatok részegységeit. A csatlakozott felhasználók gépei a feladat elvégzése után visszaküldik az eredményeket a központi szervereknek, amelyek értelemszerűen nem végeznek számítási feladatokat, csak a kimenő és beérkező adatcsomagokat gyűjtik össze és rendszerezik. Az ily módon tulajdonképpen a világ legerősebb szuperszámítógépévé összeépülő hálózat számítási és tárolási kapacitása csakis attól függ, hány felhasználót sikerült meggyőzni arról, hogy a projekt fontos tudományos eredményekkel szolgálhat. Az internet alapú információtovábbítási, tárolási és feldolgozási technológia működtetéséhez tehát három összetevő szükséges. Mindenek előtt az említett alapprogram, egy konkrét kutatási projekt és a processzoridőt felajánló géptulajdonos.



Egy szoftver, amely egyesíti a világ PC-it



Azt a programot, amelyet a 12 publikus internet-számítási projekt használ, a Berkeley egyetemen fejlesztették ki. A BOINC (Berkeley Open Infrastructure for Network Computing - Nyitott Rendszer a Hálózati Számítástechnikáért) elnevezésű szoftver nyílt forráskódú, a különböző operációs rendszerek, processzortípusok és fordítóprogramok csaknem kétszázféle kombinációja alatt is fut.

   Desktop programról van szó, tehát azt, hogy éppen dolgozik a kliensgép, a képernyővédő aktiválódása jelzi a felhasználónak. Tudnunk kell, hogy ez egy nagy számítási kapacitást igénylő feladat elvégzésére kifejlesztett program, amely eredetileg a SETI@Home projekt igényei szerint készült, ám aki telepíti számítógépére, bármelyik (vagy akár mindegyik!) nyilvános projekthez csatlakozhat. Ugyanaz a szoftver kerül fel tehát a számítógépünkre, ha a fehérjekutatásban kívánunk részt venni, mint ha az idegen lények lehetséges üzeneteinek begyűjtésére ajánlanánk fel PC-nk „szabadidejét”. (Természetesen az egyes projektek különböző segédszoftvereket használnak.)

   A program teljesen önműködően, felhasználói beavatkozástól mentesen is működik, illetve frissíti magát. Megoldották a program fejlesztői azt is, hogy a csatlakozó donorgépeket ne terheljék le képességeiket meghaladó számítási feladatokkal, s hogy a PC-k se „zaklassák” felesleges kérésekkel a szervereket, ezzel a folyamat összeomlását eredményezve.

   A szerverek feltörése ellen is védekeznek az egyes projektek üzemeltetői: a tűzfalak működtetésén és a magas biztonsági beállításokon túl azzal is, hogy minden futtatható állományt egy internettől független számítógépen aláírnak. Ennek eredményeképp elméletileg csekély rá az esély, hogy a donorok gépeire egyéb programokat telepítsenek.

   Az egyes programokhoz csatlakozók dolga tehát ennél nem is lehetne egyszerűbb, a kutatásokat megtervezők dolga viszont jóval komplikáltabb: a Berkeley programozói annak idején ugyanis nem fordítottak arra időt és energiát, hogy más projektek szervereinek konfigurálása, az egyes kutatások kiegészítő szoftvereinek hozzáigazítása az alapszoftver igényeihez és jellemzőihez minél zökkenő mentesebben történhessen. A BOINC ugyan nyílt forráskódú, és saját projektünkkel kompatibilisnek fogjuk találni, de csak miután ezért alkalmazott informatikusaink alaposan megküzdöttek. Nyilvánvaló ugyanis, hogy nem kutathatunk ugyanazokkal az algoritmusokkal szabályos alakzatokba rendeződő rádiójelek, és a klímaváltozás okozta problémák megoldásai után.



A magyar projekt



A 2005 nyarán több hazai intézmény összefogásával indított programot a Számítástechnikai és Automatizálási Kutatóintézet üzemelteti, amely Magyarországon vezető szerepet tölt be az ilyen irányú kutatásokban. Interneten is olvasható leírása szerint annak célja minél több (bizonyos dimenzióig az összes) bináris számrendszer meghatározása. A lehetséges számrendszer alapszámok (mátrixok) száma a dimenzió növekedésével robbanásszerűen nő, ezért a jelenleg rendelkezésre álló matematikai apparátus és számítási sebesség figyelembe vételével 11 dimenzió vizsgálata tűnik lehetségesnek. A grid alkalmazására azért van szükség, mert a feladat processzorigénye a projektet más módszer alkalmazásával értelmetlen hosszúságúra nyújtaná.

   A kutatások gyakorlati jelentősége a kódolásban, kriptográfiában és az adattömörítésben lehet, bár a számrendszer dimenzió-vizsgálatok bevallottan inkább az alap-, mint az alkalmazott kutatásokhoz tartoznak. Az általánosított számrendszerek és a jegykifejtések kutatását általában azért is végzik, mert segítségükkel hibamentes számításokat végezhetünk számos matematikai struktúrában.



E.T. egyelőre nem telefonál



A nyilvános gridek őse a sokak által legalább említés szintjén ismert és ma is gőzerővel működő SETI (Search for Extra Terrestial Intelligence). Öt év alatt produkálta az első részeredményt, amikor is egy gigantikus méretű adatösszesítés (nagyjából 1 millió évnyi komputeridő alatt gyűjtött információmennyiségről, 5 milliárd jel feldolgozásáról volt szó!) után kijelölték a 200 „leggyanúsabb” célpontot, melyek közelebbi vizsgálatát is megkezdték. A világ pillanatnyilag legnagyobb szuperkomputereként ismert griddel a 300 méteres átmérőjű arecibo-i rádióteleszkóptól a BOINC-on keresztül érkező adatcsomagokból számított eredményeket rendszeresen a NASA-hoz továbbítják. Mára több mint 5 millió földlakó csatlakozott a rádiójel-vadászathoz.

   S hogy járhat-e ez a hajsza bármilyen eredménnyel? Seth Shostak, a Seti vezető csillagásza szerint már akár egy emberöltőnyi időn belül is! A Drake-formula (egy hétváltozós képlet az esetlegesen az Univerzumban létező civilizációk számának meghatározására) alkalmazásával készített jóslata szerint akár 106 számú civilizáció is lehet a Tejútrendszerben, amely rádiójeleket sugároz, bár megtalálásukhoz szerinte is mintegy 100 milliárd csillag környezetét kell átfésülni. Ha azt vesszük, hogy első ízben 2003 márciusában kaptak megfigyelési időt Arecibóban a Seti-sek addigi eredményeik ellenőrzésére, s az nem volt több 24 óránál, a kutatás esélyeivel kapcsolatban nem lehetünk olyan derűlátóak, mint Shostak.

Amiben a vezető csillagász bízik – más rádióteleszkópok bevonásán kívül – az nem más, mint hogy a komputerek számítási teljesítménye a Moore-törvénynek megfelelően továbbra is másfél évente megduplázódik, de legalább is az ebből a szempontból bűvös határnak tartott 2015-ig mindenképpen, s akkor a grid segítségével 20 éven belül felfoghatjuk a kis zöld emberek adásait. Az már más kérdés, hogy a legoptimistább becslések szerint a legközelebbi ilyen civilizáció is a Földtől több száz fényévre fejlődhetett ki, vagyis a velük folytatott kommunikáció sajátságosan lassú tempóban zajlik majd.

   Shostakot a programon belül is sokan megmosolyogják véleményéért, hiszen a hét változó egyikét sem tudjuk meghatározni, csak megbecsülni, s van egy további nagyon komoly hiányossága. Éppen azt nem veszi figyelembe, hogy egy földönkívüli civilizáció számunkra elképzelhetetlen technikai fejlettsége vagy a másokkal folytatott kommunikációval szembeni aggályai boríthatják az egész formulát.



Gyakorlati célok



Ma tehát tucatnyi nyilvános grid működik a világban, s ezeket igen változatos célokkal hozták létre: a matematikai alapkutatásokon át a gravitációs hullámzás nyomainak összegyűjtéséig jó néhány természettudományos probléma megoldásában részt vehetnek azok, akik vállalkoznak arra, hogy desktop-donorokká válnak.

   A kulcsszó mindkét fél részéről a bizalom. A BOINC hálózatán az adatok értelemszerűen nyilvánosan száguldoznak, azok titkosításával nem foglalkoznak. A projektek tehát vakon bíznak meg teljesen ismeretlen donorokban.

   Vannak persze olyan kutatási területek, ahol ugyancsak alkalmazzák a grid-technológiát, ám ezek – az ipari kémkedés lehetőségét kizárandó – a nyilvánosság számára nem elérhetők. Ezek az úgynevezett zárt gridek, amelyek hétpecsétes titokként őrzött vagy a laikusok számára túl magas szintű, de mindenképpen komoly gyakorlati eredményekkel járnak. Előszeretettel használ zárt grideket például a gyógyszeripar, ahol egy formula mégoly kis töredékének kitudódását sem kockáztathatják meg a gyártók, és ilyen természetesen a hadiipar is. A hasonló felhasználók által felállított kapacitások már a griden belül is egy külön kasztot képeznek: ezek az egy tulajdonos birtokában lévő, földrajzilag általában (de nem feltétlenül) szoros közelségben található, egyetlen szuperszámítógéppé kapcsolt, úgynevezett klaszterek. A legkomolyabb teljesítményű klaszterekkel a brit gyógyszergyártók és az USA fegyveres erői rendelkeznek.

   Az amerikai szárazföldi erők például 2004 augusztusában az IBM-től rendeltek egy ilyen szupergépet, amelyet marylandi kutatóközpontjukban állítanak fel, és új fegyverrendszerek kifejlesztésére, tesztelésére használják majd. Az egymáshoz kapcsolt 1186 IBM eServer kapacitása 10 teraflop lesz, s ezzel a világ 20 legnagyobb számítógépe közé kerül. A beruházás megrendelését röviddel azután jelentették be, hogy az amerikai haditengerészet igényt formált egy hasonló méretű gépfürtre…



Virtuális gyógyszerek, százmilliós spórolások



A grid létjogosultságát egyébként fényesen bizonyítja az orvosbiológiai kutatások során mutatott hatékonysága. A Corpuscular Physics Laboratory és a Fraunhofer Intézet idén nyáron alig több mint egy hónap alatt 46 millió, a malária elleni gyógyszerek készítéséhez potenciálisan használható vegyületet vizsgáltatott át pályázaton elnyert kapacitás igénybe vételével. Arra voltak kíváncsiak, hogy egy bizonyos fehérjét melyik vegyület képes megkötni. Ha csupán egyetlen, átlagos teljesítményű PC-nek kellett volna megküzdenie ekkora munkával, akkor ehhez 80 évet vett volna igénybe. A projekt eredménye számos biztató részeredmény, amelyeket a remények szerint egy használható gyógyszerré lehet majd „összegyúrni”.

   2004. decemberében – talán a karácsony közeledtének is köszönhetően – az IBM megalapította a World Community Grid nevű virtuális hálózatát, mely a számítástechnikai óriáscég saját gépeinek szabad processzoridejét adja hozzá az önkéntesen csatlakozó felhasználók komputereinek teljesítményéhez. Mindezt annak reményében tették, hogy olyan problémák, mint az AIDS, a rák vagy a természeti katasztrófák megoldására alkalmas projekteket segíthetnek. A worldcommunitygrid.org weblapján természetesen az erre alkalmas szoftvert is le lehet tölteni. Most főként a rákkutatásra összpontosítanak, de az IBM korábban a himlőkutatáshoz is jelentős mértékben járult hozzá, amennyiben gridjük 35 millió gyógyszermolekula elemzését végezte el. Az eredményeket aztán az USA védelmi minisztériumának továbbították.

   A számítástechnikai ipar óriása egyébként is igen aktív, ha az új technológiáról van szó, az Intellel és a Hewlett Packard-al épp egy nyílt forráskódú szoftvercsomagot fejleszt, hogy ezzel is segítsék a grid-projektek működtetését.

   Előrejelzéseik szerint a gyógyszeripar teljesítményét megsokszorozhatja – néhány egyéb újítás mellett – a grid technológia alkalmazása. Az informatikai fejlesztésekre jelenleg is mintegy évi 20 milliárd dollárt költő iparág a szupergépek révén egy gyógyszer előállításának fajlagos költségeit a negyedére (kb. 200 millió dollárra) szoríthatja vissza mindamellett, hogy a szerek 12-14 év helyett 3-5 éven belül a gyógyszertárakban is megjelenhetnek. Az egyes betegségek altípusaira is lehet majd gyógyszereket tervezni, ami hatékonyabbá teszi a gyógyítást. A gyógyszergyárak természetesen részvényeseik érdekeit is szem előtt tartják, ezért jól tudják: a hatékonyabb, gyorsabb, olcsóbb fejlesztések megnövelik cégük értékét.

   Az interneten, a nyilvános gridek világában sem mindenkit a puszta altruizmus vezérel, s jól tudja ezt az Archipelago Holdings és a Sun Microsystems is, amelyek közösen készülnek létrehozni a világ első – és valószínűleg nem utolsó – internetes processzoridő-tőzsdéjét…



Csak a fantázia szab határt



Kevesen gondolnák, de még a szórakoztatóipar is használja a hálózatba kötött gépek nyújtotta extra számolási kapacitást. Amikor a kilencvenes évek elején az Walt Disney vezetősége kiadta az ukázt: „ettől kezdve minden évben elő kell állni egy egész estés rajzfilmmel”, azt annak tudatában tehették meg, hogy a neves filmgyártó nem kevés ilyen hálózatba köthető számítógéppel rendelkezett. Az 1995-ös Pocahontas című rajzfilm óta gyakorlatilag ezt a metódust követik az álomgyárban, A Notre Dame-i toronyőr, a Herkules, a Mulan, a Tarzan, a Lilo és Stich, Az elveszett birodalom vagy például A kincses bolygó mind-mind a grid-technológiának köszönheti létezését.

   A francia Institut de Physique du Globe de Paris szintén a grid segítségével próbál áttörést elérni a földrengés-kutatásban. A legutóbbi indonéziai földrengés után tízszer gyorsabban jutottak hozzá a várt adatokhoz, mintha csupán a saját erőforrásaikat vették volna igénybe: vagyis már másnapra lokalizálták a földrengés helyét, megismerték pontos időpontját és felvázolták összefüggéseit a rengést követő cunamival.

   A CERN-ben (Svájc) most építik a világ legnagyobb részecskegyorsítóját, melyben a tervek szerint 2007-től 6000 ember végzi majd tudományos munkáját. Évente 12-14 PetaByte információt kell kezelniük, amelyhez nagyjából 200 000 nagyteljesítményű processzor működtetésére lenne szükségük. A számítási kapacitás nagy részét ennek megfelelően kénytelenek lesznek regionális központokban lekötni, egy ilyennek öt magyarországi intézmény is tagja.

   Magyarok is (és akár magyar nyelven is) belefolyhatnak a Growing Interest in the Development of Teaching Science hálózat munkájába. Ez a természettudományos oktatás színvonalának emeléséhez felhasználható ötleteket, kezdeményezéseket vár a közép- és felsőfokú nevelés bármely résztvevőjétől. A természettudományos ismeretátadás érdekesebbé és hatékonyabbá tétele a diákok számára régóta nehéz diónak számít; épp ezért a hálózat megálmodói azt szeretnék, ha az egyes tantárgyak innovációit mindenféle korlátozás nélkül megismerhetné az egész európai oktatási közösség. Információcsere, állapotfelmérés, a tanítás- és tanulásszervezés ideális módszerének kidolgozása, szabványosítás, nevelésfejlesztési ötletbörze a griden – így foglalható össze címszavakban a Nancy-i egyetem által összefogott kezdeményezés, melynek brit, finn, magyar, belga és olasz oktatási intézmények, szervezetek, valamint az oktatásban érdekelt magáncégek a résztvevői.





Talán itt nem maradunk le



Az internetet tehát végre elkezdték arra használni, amire kitalálták, s ma már ott tartunk, hogy az Unió egyik legnagyobb tudományos projektje a grid-technológia használatában támogatja a kutatókat, amennyiben pályázatok formájában kapacitást biztosít részükre. A kutatásfejlesztési ráfordítások tekintetében Észak-Amerika és a Távol-Kelet után kullogó Európában már megszületett az egyelőre valóságos, működtethető rácshálózat formájában még csak szakaszosan létező, ám tervek szintjén már grandiózus, a különböző projekteket, szoftvereket és kutatásokat összehangolni és szabályozni kívánó DataGrid rendszer, Montpellier-i központtal.

   Hazánkban 2000 óra 6 grid-projekt indult útjára. Ezek vagy első, vagy a kitalált feladat mellett második szándékkal jobbára a technológia felhasználási módozatait elemezték, tulajdonképpeni demo-k voltak tehát, amelyek azt voltak hivatottak bizonyítani, hogy a grid működőképes tudományos eszköz. Az agykutatás, az asztrofizika, az aerodinamika és a részecskefizika területén alkalmazható algoritmusokra is kipróbálták a technológiát, de szmogriadók elkerülésének hatásmechanizmusát is modellezték és lefuttattak egy a Paksi Atomerőmű reaktorának élettartamát modellező alkalmazást is.

   A Veszprémi Egyetemen a távolsági hálózatba kapcsolt, a Sztakinál az egy intézményen belül összeköthető erőforrások munkáját összehangoló programok fejlesztésén dolgoznak.

Debrecenben az egyetem és egy orvosi képfeldolgozó hardverek és szoftverek fejlesztésével foglalkozó magáncég hozott létre társaságot komputertomográfiás eszközök és programok fejlesztésére. A magánszféra és a tudományos intézetek összefogása többszörösen is gyümölcsözőnek bizonyulhat: hosszú távon eredményt hozhat a rutin diagnosztikában, emellett a magáncég tomográfiás diagnosztikai programtermékei korszerűsödhetnek, az intézmények számára pedig újabb pályázati lehetőségek válhatnak elérhetővé, nem is beszélve a grid technológia további finomításáról.

   2003 márciusában az állam végképp elkötelezte magát a hazai grid-projektek (összességében milliárdos nagyságrendű) támogatása mellett: ekkor írták alá Magyar Grid Kompetencia Központ konzorcium alapító okiratát. A Központ egy mintarendszer kifejlesztésén dolgozik, ezen kívül potenciális felhasználókat gyűjt és képez tovább, nem utolsó sorban összefogja az 1 milliárd forint értekben, 27 felsőoktatási intézménybe kihelyezett PC-k klaszterét. Nemrég átadták azt a kutatói gerinchálózatot is, amely hét egyetemet és további kutatási intézményeket köt össze egymással, kapcsolatot teremtve több száz kutatóállomás mintegy 600 ezer alkalmazottja között. A bővítés során az adatátvitel sebessége a korábbi négyszeresére, 10 Gigabit/másodpercre nőtt, s ez Kelet-Európában egyedülállónak számít.
Most már valóban csak működőképes projektekre van szükség, mert – amint az jól látható a korábban vázolt példákból – némi „szájpropagandával” korábban nem is remélt mennyiségű processzoridő gyűjthető össze. 

A CIKK AZ IPM 2006.  JANUÁRI SZÁMÁBAN JELENT MEG




Megjegyzések

Népszerű bejegyzések