Houvast in een vloedgolf; Europese databank schept orde in genetische informatie-anarchie

Om de vloedgolf aan gegevens over genen en eiwitten te beheersen, is het koppelen van databestanden harde noodzaak. Voor de bio-informatici liggen ongekende mogelijkheden in het verschiet.

TUSSEN UITGESTREKTE graan- en maïsvelden, even buiten Cambridge, gaat anderhalve hectare high-tech schuil. Daar zetelt het European Bioinformatics Institute (EBI) in een futuristisch, langgerekt gebouw dat drie etages telt. Glas en staal domineren. Buiten schroeft een man in een blauwe overall een bordje met het opschrift 'Reception' op een antracietkleurig, manshoog blok natuursteen. Het gebouw is drie weken geleden in gebruik genomen.

Met de vestiging van het EBI in Hinxton is deze kleine gemeente - niet in de atlas van de Britannica terug te vinden - in één klap het Europese hart van de bio-informatica geworden. Het gebruik van computers en informatietechnologie in de biologie, en vooral in de moleculaire biologie, is de laatste jaren explosief toegenomen. De computer is onmisbaar geworden om het hoofd te bieden aan de vloedgolf van gegevens over genen, eiwitten en driedimensionale structuren van eiwitten. De computer bewijst zijn dienst vooral bij het koppelen van al deze gegevens. De bio-informaticus kan een gen selecteren en daar vervolgens binnen een handomdraai het bijbehorende eiwit bijzoeken. Allerlei genen en eiwitten kunnen met elkaar worden vergeleken. Dit soort vergelijkingen geeft inzicht in de opbouw van genen, hun functie, regulering en evolutionaire geschiedenis. Bovendien kunnen wetenschappers via een zoektocht in de databanken ziekteprocessen bij de mens beter en sneller begrijpen.

Een bekend voorbeeld is dat van het gen NF1. Het gen is geassocieerd met neurofibromatose, een ziekte met tumorvorming in het perifeer zenuwstelsel. De betrokkenheid van NF1 bij deze ziekte werd echter niet begrepen. Totdat het eiwit waarvoor het NF1-gen codeert in de databank werd gestopt. Na een vergelijking met andere eiwitten bleek dat NF1 een interactie aangaat met het celgroei-regulerende eiwit dat de naam Ras draagt. De onderzoekers konden vervolgens bewijzen dat een gemuteerd NF1-gen resulteert in een eiwit dat op de verkeerde manier bindt aan het Ras-eiwit. Hierdoor raakt het proces van celdeling verstoord.

Dit soort toepassingen heeft farmaceutische bedrijven er toe gebracht om de afgelopen twee jaar tientallen miljoenen dollars te investeren in commerciële databanken. Via de computer hopen zij sneller op het spoor te komen van genen en eiwitten die een belangrijke rol spelen bij ziekteprocessen. Hebben ze dergelijke moleculen eenmaal getraceerd, dan verwachten ze hiertegen zeer gericht geneesmiddelen te kunnen ontwikkelen.

“Bio-informatica is op dit moment een paspoort voor een baan. Ons instituut heeft nu zeventig mensen in dienst. Aan het eind van het jaar zullen dat er honderd zijn”, zegt dr. Paolo Zanella, directeur van het EBI. Vanuit het glimmende nieuwe gebouw kijkt hij uit over de lage, donkere barakken waarin de werknemers van het EBI het afgelopen jaar hun werk moesten verrichten. De mistroostige constructies zijn veertig jaar geleden door de vorige grondeigenaar neergezet. Ze zullen nog dit jaar tegen de vlakte gaan, zegt Zanella. Verderop staat een oud landhuis in de steigers. Het wordt gerestaureerd en omgebouwd tot conferentiezaal.

Het EBI is een nieuwe tak van het Europees Moleculair Biologisch Laboratorium (EMBL). Het EMBL werd begin jaren tachtig opgericht door 15 Europese landen en Israël om de groeiende stroom van gegevens op het gebied van de moleculaire biologie te verwerken. Gegevens over cellen, over hun inhoud, over het functioneren van de verschillende onderdelen en over het DNA, de blauwdruk van het leven. De Schotse informaticus dr. Graham Cameron, inmiddels hoofd Diensten bij het EBI, kwam er als een der eersten in dienst. Hij werd aangesteld bij de hoofdvestiging in het Duitse Heidelberg. “Onze taak was toen nog simpel. Uit de wetenschappelijke bladen moesten we DNA-sequenties verzamelen. Die sloegen we vervolgens op in een databank.” De Amerikanen waren een vergelijkbaar project begonnen, onder de naam Genbank. In 1984 volgden de Japanners met hun DNA-databank waarin stukjes erfelijke informatie, opgebouwd uit de vier letters van het DNA-alfabet (de basen A, T, C en G) werden opgeslagen. Cameron: “Toen onze bank zo'n tien jaar geleden voor het eerst publiek toegankelijk werd zaten er geloof ik 600.000 baseparen in. Nu zijn dat er 600 miljoen.”

Om die vloedgolf aan informatie te kunnen beheren, richtten de Amerikanen drie jaar geleden het National Center for Biotechnology Information (NCBI) op in Washington. Europa volgde een jaar later, mede op aandringen van chemische en farmaceutische bedrijven als Akzo, Ciba Geigy en Glaxo Wellcome, met de oprichting van het EBI. Japan heeft inmiddels ook zijn eigen Center for Information Biology, gevestigd bij het National Institute of Genetics in Mishima. De drie instituten wisselen hun gegevens iedere dag uit.

De databanken zijn opgebouwd uit verschillende bestanden. DNA-sequenties, eiwitsequenties en driedimensionale eiwitstructuren worden in aparte bestanden opgeslagen. Verder zijn er tal van gespecialiseerde bestanden. Bijvoorbeeld Flybase, die gegevens over de fruitvlieg bevat, p53-base, waarin gegevens over het celgroei-regulerende gen p53 terug zijn te vinden en Transcription Factor Database die informatie bevat over de factoren die het afschrijven van erfelijke informatie beïnvloeden.

Volgens Cameron zijn er ongeveer 200 bestanden voor de bioloog van belang. Het EBI heeft inmiddels zo'n dertig bestanden met elkaar gekoppeld. “Interoperabiliteit is tegenwoordig het buzz-word”, zegt Cameron. “Veel mensen denken dat moderne gereedschappen zoals het World Wide Web het informatieprobleem hebben opgelost. Maar in werkelijkheid zijn er daardoor net zoveel problemen geschapen als ermee zijn opgelost. Er heerst anarchie. Je moet je weg zoeken tussen miljoenen informatiebronnen van zeer diverse kwaliteit.”

De geïntegreerde databestanden waarover het EBI nu beschikt bevatten 600 miljoen basen, 20 miljoen aminozuren en bijna 5.000 3-D eiwitstructuren. De basen zijn afkomstig van 15.000 verschillende soorten planten en dieren. Veertig procent van het totaal aantal basen representeert menselijk DNA (dat in totaal 3 miljard basen telt); ruim 7 procent komt van de rondworm Caenorhabditis elegans, gist neemt bijna 6 procent in beslag, de muis 3,3 procent. De hoeveelheid informatie in de verschillende databanken verdubbelt iedere anderhalf jaar.

De mogelijkheden van deze gekoppelde databestanden zijn indrukwekkend. Dat blijkt tijdens een demonstratie door dr. Miguel Andrade, een enthousiaste, ietwat verwarde Spaanse biochemicus. Hij tikt een willekeurige volgorde van A's, T's, C's en G's in en drukt op Enter. Een seconde later staat het scherm vol met gegevens. De sequentie blijkt afkomstig van het Artichoke Mottled Crinckle Virus, een virus dat artisjokken infecteert. Daaronder staat een reeks sequenties die op één of twee letters na identiek zijn aan dat van het virus. Met een druk op de knop is het mogelijk informatie over deze sequenties in te zien. Het scherm geeft verder literatuurverwijzingen, ingangen tot eiwitsequenties en eiwitstructuren.

“Zal ik eens naar de eiwitstructuur gaan”, zegt Andrade. “Of, nee, ik probeer een andere sequentie, van Haemophilus influenzae.” Het totale DNA van deze verwekker van oor- en hersenvliesontsteking werd vorig jaar augustus gepubliceerd. De bacterie bevat 1.743 genen. Andrade kiest een gen en drukt weer op Enter. Meteen loopt het scherm vol met data. De gekozen sequentie kent 19 homologen, dat zijn sequenties die als twee druppels water op de gekozen DNA-volgorde lijken. De cursor springt naar een van de 19 homologen waarna weer een druk op de knop volgt. Er verschijnen gegevens over bakkersgist. Andrade: “Zo kun je heel snel genen van verschillende organismen met elkaar vergelijken. Het is mogelijk om het suikermetabolisme te bestuderen of de vertaling van DNA. Wat heeft het ene organisme wat het andere niet heeft, en wat zijn de overeenkomsten? Via dit soort vergelijkingen proberen we evolutionaire verwantschappen op te stellen. We kunnen ons afvragen wat het minimale aantal genen is dat een organisme nodig heeft om te overleven. Dat is allemaal mogelijk geworden omdat er complete genomen beschikbaar komen.”

Zo'n vergelijking is inmiddels uitgevoerd door Arcady Mushegian en Eugene Koonin, twee onderzoekers van het NCBI. Ze onderzochten de genomen van de bacteriën H. influenza en Mycoplasma genitalium. Uit de overeenkomende DNA-sequenties leidden de twee moleculair biologen de genen en de bijbehorende eiwitten af. Van die eiwitten analyseerden ze de functie. Vervolgens puzzelden ze met de verschillende stukjes de belangrijkste chemische levensprocessen in de cel in elkaar. Daar waar deze metabole route onvolledig was, vulden ze de gaten op met de benodigde eiwitten die ze vervolgens weer vertaalden in genen. Ten slotte verwijderden ze genetische tweelingen, genen die via duplicatie uit eenzelfde vooroudergen zijn ontstaan.

Uiteindelijk hielden ze 128 genen over. Dat aantal zou volgens Mushegian en Koonin voldoende zijn om iedere willekeurige cel onder alle denkbare omstandigheden in leven te houden. De twee Amerikanen kwamen tot de voorzichtige conclusie dat de 128 genen wel eens het erfelijk materiaal van het eerste oerorganisme zouden kunnen representeren. De Zweedse geneticus Siv Andersson van de Uppsala University heeft zijn twijfels over dit aantal. Tijdens een bijeenkomst van moleculair biologen in New York begin mei, presenteerde hij het publiek zijn onderzoek aan Rickettsia prowazekii, een typhusveroorzakende parasiet met een zeer klein genoom. Op basis daarvan kwam de Zweed tot de conclusie dat een levensvatbare cel minstens over 800 genen moet beschikken.

Zo snel als het onderzoek aan DNA-sequenties verloopt, zo moeizaam vordert het werk aan driedimensionale eiwitstructuren. Cameron: “Er zijn weinig structuren bekend. Het ophelderen van 3-D structuren via kristallografie is nou eenmaal een langdradig werk. Bovendien kost het de computer veel tijd en geheugenruimte om ruimtelijke structuren met elkaar te vergelijken. Meestal beperkt het onderzoek zich tot het vergelijken van de lineaire aminozuursequentie. Maar de functie van een eiwit wordt bepaald door zijn configuratie in de ruimte. Het EBI heeft veel geïnvesteerd om dat probleem op te lossen.”

Dat heeft onder andere geleid tot een artikel in Science (2 augustus) van de EBI-medewerkers Liisa Holm en Chris Sander. De twee theoretisch fysici ontwikkelden twee algoritmes die het eenvoudiger maken om 3-D eiwitstructuren met elkaar te vergelijken. Zonder een te grote aanslag te plegen op de geheugenruimte van de computer, konden ze zelfs zeer geringe overeenkomsten tussen eiwitten terugvinden. Ze waren daarmee in staat om vervaagde evolutionaire verwantschappen te ontdekken. In een bijna literaire passage van het wetenschappelijke artikel schrijven ze dat het net is alsof je “een grotere telescoop gebruikt die verder in het universum kijkt, en dus verder terug in de tijd, waarmee de deur wordt geopend naar de oudste en meest fascinerende evolutionaire relaties.”

Het eerste algoritme dat Holm en Sander ontwikkelden voert een eenvoudige screening uit. Het geeft een eiwit weer als een verzameling van vectoren, die de ruimtelijke positie van de aminozuren in het eiwit weergeven. Tijdens een zoektocht worden alleen de eiwitten met een overeenkomende vectoropbouw geselecteerd. Maar dit is een grove screening. Holm en Sander vergelijken het met het opzoeken van een naam in een telefoonboek. Om uiteindelijk bij die ene juiste Janssen terecht te komen is een verfijndere zoekmethode nodig. Dat gebeurt via een tweede algoritme dat een meer gedetailleerde screening uitvoert, gebaseerd op de afstanden tussen de centrale koolstofatomen van de verschillende aminozuren (de C-atomen).

Via deze zoekmethode konden Holm en Sander verbanden leggen tussen eiwitten die op het eerste oog weinig met elkaar gemeen hebben. Bijvoorbeeld een glycogeen fosforyltransferase, een centraal enzym in het energiemetabolisme, en een DNA glucosyltransferase, een DNA-beschermend enzym. De overeenkomst in vorm is een weerspiegeling van een zelfde biochemische activiteit. Tot hun verrassing vonden Holm en Sander ook structurele overeenkomsten tussen DNA-polymerase , een enzym dat schade aan het DNA herstelt, en kanamycine nucleotidyltransferase, een enzym dat bacteriën ongevoelig maakt voor antibiotica. Via deze zoektocht, die overigens niet langer dan vijf minuten duurde, ontdekten de twee onderzoekers vijf nieuwe families van nucleotidyltransferases.

Na een uitgebreide zoektocht door het 'universum der eiwitten' concluderen Holm en Sander dat er in de natuur in totaal waarschijnlijk zo'n 740 eiwitfamilies voorkomen. Dat aantal werd altijd op 1.000 geschat. Holm en Sander gaan nog verder in hun analyse. Sommige families vertonen namelijk ook hier en daar overeenkomende vouwpatronen. Ze komen tot de conclusie dat de onderzochte 4.000 eiwitten zijn gebaseerd op niet meer dan 287 unieke vouwingen. Dat aantal konden ze verder clusteren in vijf attractoren. Die vertegenwoordigen de belangrijkste routes waarlangs een vouwing zich als gevolg van fysische wetten voltrekt. Naarmate er meer 3-D structuren bekend worden verwachten ze weliswaar meerdere van dergelijke basale vouwroutes te ontdekken. Maar, zo schrijven ze in Science, “we zouden verbaasd zijn als het aantal attractoren meer dan verdubbelde in de komende vijf jaar.”

Vanwege de in korte tijd opgebouwde expertise, heeft het EBI inmiddels contact weten te leggen met een aantal grote farmaceutische bedrijven. “Traditioneel praten industrie en universiteit in Europa weinig met elkaar. Ik wil die kloof de komende vijf jaar dichten”, zegt directeur Zanella, die jarenlang leiding gaf aan de computerafdeling van het deeltjesversnellerinstituut CERN in Genève. “De bedrijven komen naar het EBI met een shopping list van behoeften. Het EBI probeert die op te lossen. Na verloop van tijd willen we symposia, workshops en opleidingen in de bio-informatica gaan verzorgen. Dat is in ieder geval mijn droom.”

    • Marcel aan de Brugh