Verdeel en heers

Samen kunnen pc's evenveel als een supercomputer. Wetenschappers praten volgende week in Amsterdam over de mogelijkheden van `grid computing'.

Miljoenen computers in kantoren en woningen die het grootste deel van de tijd niets doen, worden steeds vaker ingezet voor wetenschappelijk onderzoek of voor commerciële doeleinden. Fabrikant Pratt & Whitney steekt doorgaans veel geld in het ontwikkelen van driedimensionale simulaties van motorontwerpen. Tot voor kort gebeurde dat met supercomputers van 10 miljoen dollar of meer. Toen de ingenieurs rekencapaciteit tekort kwamen en overwogen om een nieuwe computer aan te schaffen, besloot Pratt & Whitney tot een nieuwe aanpak: men liet software schrijven zodat de honderden UNIX-werkstations 's nachts aan de simulaties konden rekenen. Zo ontstond een virtuele supercomputer die 6 triljoen floating point operaties per seconde (6 teraflops) kon uitvoeren. De resultaten zijn zo verrassend dat het bedrijf overweegt om ook zijn 13.000 pc's aan het netwerk te koppelen.

Pratt & Whitney is niet de enige organisatie die dankbaar gebruik maakt van de mogelijkheden van gedistribueerd rekenen. De bank J.P. Morgan koppelt regelmatig 250 pc's aan elkaar om berekeningen te maken van de handel in derivaten. Vliegtuigfabrikant Boeing heeft een programma genaamd Legion om de akoestische en elektromagnetische eigenschappen van de romp van gevechtsvliegtuigen bij kritische invalshoeken te berekenen. Ook dit programma bundelt de rekenkracht van honderden kleinere computers. Chipfabrikant Intel zegt honderd miljoenen dollars te hebben uitgespaard door simulaties te laten uitrekenen door een netwerk van pc's.

Het idee is op zich niet nieuw. Toen in het begin van de jaren zeventig computers via netwerken aan elkaar gekoppeld werden, waren er al plannen om rekentaken over verschillende computersystemen te verdelen. Er werden verschillende experimenten uitgevoerd op het toenmalige ARPAnet, de voorloper van Internet. In 1973 werden door Xerox computers gebundeld voor het samenstellen of `renderen' van computerbeelden. Richard Crandall deed hetzelfde met NeXT werkstations, maar dan voor het ontbinden van grote priemgetallen en voor het testen van encryptiesystemen.

Miron Livny was in 1985 de eerste die UNIX-werkstations koppelde via het Internet. Zijn systeem Condor wordt nog altijd gebruikt voor complexe rekenklussen. ``De doorbraak kwam in de jaren negentig,'' zegt Kors Bos van het Nederlands Instituut voor Hoge Energie Fysica (NIKHEF) in Amsterdam en betrokken bij een aantal experimenten met grid computing in Europa. ``Bij simulaties van de Stealth-straaljager liep men aan tegen de beperkingen van supercomputers. Zelfs met de grootste computer zou nog altijd 100 jaar op simulaties gerekend moeten worden. Men heeft toen de supercomputers van laboratoria als Los Alamos en Argonne aan elkaar gekoppeld, zodat de klus in enkele dagen geklaard kon worden.''

krachtiger

De belangstelling voor gedistribueerd rekenen is sindsdien alleen maar toegenomen. Niet alleen omdat pc's steeds krachtiger zijn geworden, maar ook omdat via Internet tegenwoordig veel meer datacapaciteit beschikbaar is. ``Het is nauwelijks voorstelbaar, maar de pc die we tegenwoordig op ons bureau hebben staan kan meer dan de eerste Cray supercomputer uit de jaren tachtig,'' zegt Charlie Catlett, voorzitter van de Global Grid organisatie. ``En dat monsterlijke apparaat moest ook nog eens voor miljoenen dollars gekoeld worden.''

Koppelt men werkstations met behulp van de slimme software aan elkaar dan kunnen tegenwoordig zeer complexe rekentaken worden uitgevoerd. ``Wij zijn jaren geleden al gestopt met het aanschaffen van supercomputers,'' zegt Fabrizio Gagliardi, projectleider DataGrid van CERN, de organisatie achter de deeltjesversneller in Genève. ``Het rekencentrum van CERN bestaat in zijn geheel uit gekoppelde pc's.''

Dat ook via het Internet heel goed virtueel gerekend kan worden, bewees enkele jaren terug de Amerikaanse organisatie SETI, die in radiosignalen uit het heelal zoekt naar patronen die de aanwezigheid van intelligentie elders in het universum kunnen verraden. Dagelijks wordt een stroom van gegevens van de Arecibo radiotelescoop voor bewerking naar de Universiteit van Berkeley in Californië gestuurd. Bij de analyse wordt onder meer gekeken naar de verhouding tussen signaal en ruis en het onderscheidend vermogen in de tijd. Het is een enorm karwei dat SETI nooit zelf had kunnen klaren en waarvoor ook nooit geld beschikbaar was. SETI besloot daarom een een stukje software te schrijven dat gebruikers op hun thuiscomputer kunnen installeren. Dat programma haalt via Internet de ruwe data op en analyseert de gegevens telkens als de computer even niets te doen heeft. Meer dan 2 miljoen mensen hebben het programma van SETI inmiddels voor langere tijd gebruikt, wat overeenkomt met 350.000 jaar aan computerrekentijd.

Het SETI-experiment is zo succesvol dat het overal in de wereld navolging heeft gekregen. Zo is het Rutherford Appleton Lab in Engeland bezig om het toekomstige klimaat in kaart te brengen. Onderzoekers willen het liefst vijftig tot honderd jaar vooruitkijken. Daartoe moet flink gerekend worden aan duizenden klimaatmodellen en dat gebeurt nu met behulp van een screensaver op pc's van honderden vrijwilligers. De Universiteit van Stanford in Californië rekent via screensavers aan simulaties van het vouwen van eiwitten, een proces dat wetenschappers willen doorgronden om betere geneesmiddelen te kunnen ontwikkelen of om het ontstaan van ziektes als Alzheimer beter te kunnen verklaren. Naast Folding@home zijn er inmiddels nog eens tientallen soortgelijke projecten, waaronder Fight AIDS@home en Compute-against-cancer.

Daarnaast zijn er inmiddels verschillende bedrijven die in hoog tempo software ontwikkelen waarmee ondernemingen en onderzoeksorganisaties computernetwerken als datagrids kunnen inrichten. Zo werkt Parabon uit Virginia samen met het Nationaal Kanker Instituut en onderzoekt Distributed Science wat de goedkoopste manier is om voor langere tijd nucleair afval op te slaan. Daarbij wordt onder meer de hoeveelheid gammastraling berekend die uit opslagtanks kan ontsnappen. In San Francisco rekent de software van Popular Power aan simulaties van de interactie tussen vaccins en virussen. Directeur Marc Hedlund verwacht dat zijn software in de toekomst voor tal van toepassingen wordt gebruikt, zoals financiële berekeningen en het `renderen' van beelden voor animaties. ``Ik kom zelf van Lucas Film, het bedrijf achter de speelfilm Star Wars,'' zegt Hedlund. ``Nog altijd kost het erg veel tijd om computers animaties te laten maken. Via gedistribueerde netwerken kan het een stuk sneller en goedkoper.'' Het type computer dat voor dit soort berekeningen wordt gebruikt doet er volgens Hedlund niet zo toe. ``Veel geheugen is belangrijker dan de kloksnelheid, we hebben ook oude computers aan het netwerk hangen. Alle beetjes helpen.''

Niet iedereen vindt gedistribueerd rekenen via Internet een goed idee. Farmaceutische bedrijven geven niet graag vertrouwelijke gegevens uit handen, zelfs niet als de gegevens worden versleuteld. Ondernemingen willen bovendien de zekerheid hebben dat bepaalde rekentaken binnen een vastgestelde tijd kunnen worden afgerond. Die zekerheid kan via netwerken van vrijwilligers moeilijk geboden worden. Een aantal bedrijven overweegt vrijwilligers dan ook te betalen voor de rekencapaciteit die zij aan een datagrid ter beschikking willen stellen, maar daardoor zouden de onderzoekskosten ook weer kunnen stijgen.

In de wetenschappelijke wereld is men zich van de tekortkomingen terdege bewust. Vandaar er nu plannen zijn om met behulp van snelle datanetwerken een wereldwijd gedistribueerd reken- en datanetwerk op te zetten, The Grid.

CERN, het Europese centrum voor deeltjesonderzoek, is al ver gevorderd met een deel van het netwerk. CERN laat in een 27 kilometer lange ringbuis elementaire deeltjes als protonen tegen elkaar botsen. De huidige versneller in Genève wordt de komende jaren omgebouwd tot de Large Hardon Collider, die nog meer energie aan de deeltjes zal geven. De analyse van de botsingen vergt een hoeveelheid rekendata die CERN nooit alleen zou kunnen verwerken. ``Wij willen het complete moment van zo'n botsing kunnen analyseren,'' zegt Kors Bos van het NIKHEF, dat samen met het universitaire rekencentrum SARA aan de experimenten deelneemt. ``Zo'n botsing duurt nog niet eens een microseconde, maar dat levert alleen al 100 megabyte aan data op. Per jaar kom je aan 10 petabyte, oftewel 10.000 terabyte aan data.''

europees grid

Vandaar men de computers van een groot aantal wetenschappelijke instituten in Europa met elkaar wil verbinden zodat die de gegevens gezamenlijk kunnen verwerken. Plannen voor zo'n Europees grid werden tot voor kort gecoördineerd door een forum met vertegenwoordigers van o.a. het Albert Einstein Instituut in Potsdam en de Universiteit van Amsterdam, maar inmiddels is de Europese organisatie gefuseerd met Aziatische en Amerikaanse gridorganisaties in het Global Grid Forum. De belangrijkste taak van het forum wordt het ontwikkelen van standaarden en vooral van middleware, software die het dataverkeer in de grid moet gaan regelen. ``De mate van complexiteit van de software zal voor ieder toepassingsgebied verschillen,'' legt Bos van het NIKHEF uit. ``Voor het CERN-project is het belangrijk dat bij de distributie van de gegevens geen bit verloren gaat, dus zullen we extra protocollen moeten inbouwen om ervoor te zorgen dat alle bits ook verstuurd worden.''

Bij de gridprojecten gaat het echter niet alleen om gedistribueerd rekenen of cycle harvesting. In de toekomst zou men ook ongebruikte opslagcapaciteit kunnen `poolen'. Even belangrijk vindt men de mogelijkheid om wetenschappelijke informatie uit te wisselen in het kader van een wereldomspannend datagrid. Dat gebeurt tot op zekere hoogte nu ook al via Internet, maar het kan veel efficiënter. Bos: ``Het mooiste voorbeeld is Napster, de uitwisseldienst voor muziekbestanden. Het programma koppelt niet alleen pc's van gebruikers aan elkaar, het maakt ook een inventaris van alle informatie die op de pc beschikbaar is. Zo'n systeem is veel actueler dan een zoekmachine die eens in de zoveel tijd alle informatie moet indexeren.''

``Als je wetenschappelijk onderzoek doet, wil je kunnen beschikken over de meest actuele informatie,'' vult Paul Wielinga van SARA aan. ``Het liefst wil je via een zoekopdracht alle beschikbare gegevens kunnen oproepen. Dat is nu nauwelijks mogelijk.''

virtueel lab

Bob Hertzberger van de Universiteit van Amsterdam ziet nog grotere uitdagingen. Hij werkt samen met het Wetenschap & Technologie Centrum Watergraafsmeer en bedrijven als Unilever aan een virtueel lab, een gedistribueerde omgeving voor genoomonderzoek. Daarbij wil men zich niet alleen beperken tot het uitwisselen van gegevens. Zo zou ook meetapparatuur aan het netwerk kunnen worden gekoppeld. ``Iedere medicus, bioloog of farmacoloog zou straks experimenten kunnen uitvoeren met apparatuur waarover zijn eigen organisatie niet beschikt'', zegt Hertzberger. Later dit jaar al zal bijvoorbeeld al een zogenoemde DNA-microarray faciliteit worden aangesloten, een apparaat dat grote hoeveelheden DNA kan analyseren. Hertzberger moet toegeven dat er nog bergen werk verzet moet worden voordat zo'n datagrid goed functioneert. ``Het vereist een heel andere aanpak van de manier waarop organisaties onderzoek doen. We zullen behalve faciliteiten ook kosten moeten delen.''

Aan ideeën is voorlopig geen gebrek. Op de eerste Global Grid Forum Conference van 4 tot 9 maart in Amsterdam komen wetenschappers uit de hele wereld bij elkaar om over de nieuwste datagridprojecten te praten. Zo gaat het KNMI samen met andere meteorologische instituten data verwerken van aardobservatiesatellieten. ``De hoeveelheid gegevens die daarbij vrijkomt is zo omvangrijk dat geen enkele organisatie die alleen zou kunnen verwerken,'' zegt Sylvia Barlag van het KNMI. Wielinga van SARA wijst op de mogelijkheid om met behulp van een grid de biodiversiteit gedetailleerd in kaart te brengen. ``Over de hele wereld vind je databestanden over planten en dieren op een heel klein stukje aarde. Via een grid kun je gefragmenteerde gegevens voor het eerst samenbrengen.''

Internetverwijzingen naar projecten uit dit artikel en het Global Grid Forum Conference zijn te vinden op www.nrc.nl/doc