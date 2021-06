Chinese onderzoekers van de Wuhan-universiteit hebben in juni 2020 vroege genetische codes van het SARS-CoV-2 coronavirus laten verwijderen uit de internationale NCBI-databank. De Amerikaanse evolutiebioloog Jesse Bloom van het Fred Hutchinson Cancer Research Center in Seattle haalde ze echter met een uitgekiende zoektocht op cloud-servers van Google weer bijna allemaal boven water. Volgens Bloom zijn dit soort vroege genetische sequenties cruciaal voor het onderzoek naar de oorsprong van het coronavirus SARS-CoV-2. Vorige week publiceerde hij zijn detectivewerk online in een preprint, een wetenschappelijke voorpublicatie.

Hij kan het niet bewijzen, maar Bloom denkt dat de gegevens doelbewust zijn weggehaald, op last van de Chinese overheid. „Het lijkt erop dat de sequenties gewist zijn om hun bestaan te verhullen”, schrijft Bloom in zijn preprint, „Er is geen plausibele wetenschappelijke reden voor.” En in een uitleg op Twitter gaat hij nog verder: „Het feit dat deze dataset is gewist, moet ons sceptisch maken over of wel alle andere relevante vroege Wuhan-sequenties zijn gedeeld.”

Opruiend

Blooms onderzoek levert geen nieuwe aanwijzingen op over de vraag of Covid-19 ontstond door een natuurlijk overspringend virus of door een lek vanuit een laboratorium. Toch zet zijn conclusie dat er data verborgen gehouden worden het Amerikaanse debat over de oorsprong van Covid-19 weer verder op scherp. Zeker nadat president Biden zijn veiligheidsdiensten opdracht heeft gegeven alle informatie hierover te verzamelen.

Collega-wetenschappers reageren verdeeld. „Opruiend” en „niets nieuws”, zei viroloog Robert Garry van Tufte University in The Washington Post. Anderen vielen Bloom juist bij, zoals epidemioloog Ian Lipkin van Columbia University: „Het terugtrekken van sequentiedata is ongehoord en moet hersteld worden.”

Dat zijn preprint veel stof zou doen opwaaien, had Bloom wel verwacht: „Het onderzoek naar het vroegste begin en verspreiding van SARS-CoV-2 is zo’n heet hangijzer. Ik geniet er niet van om betrokken te raken in haatdragende debatten, maar ik zie het als mijn plicht als wetenschapper om zelfs het kleinste snippertje nieuwe informatie op te sporen.”

Jesse Bloom ontdekte dat er iets mis was met de database van genetische sequenties. Foto: HHMI/Stephen Brashear

Bloom was in mei van dit jaar een van de ondertekenaars van een open brief in Science waarin wetenschappers oproepen tot een diepgravender onderzoek naar het ontstaan van Covid-19. Dat was nadat een missie van de Wereldgezondheidsorganisatie (WHO) naar ground zero in Wuhan geen concrete aanwijzingen opleverde over de oorsprong van het virus. Bloom vindt dat iedere steen gekeerd moet worden in het onderzoek naar de bron, en ontdekte dat hij daaraan zelf vanuit Seattle ook kan bijdragen.

241 monsters

Dit voorjaar probeerde hij genetische analyses in het WHO-rapport over de oorsprong van Covid-19 te verifiëren, toen hij stuitte op een Canadese publicatie met in de bijlage een verwijzing naar een Chinese dataset, die tot dusver niet veel onder de aandacht was gekomen. Hij besloot er eens in te duiken. Al snel ontdekte hij dat de gegevens van ‘projectnummer PRNJA612766’, niet meer bestonden in de databank van NCBI, waar ze ooit wel gedeponeerd waren.

Nader onderzoek wees uit dat het ging om een dataset van 241 monsters, aangelegd door onderzoekers van de universiteit van Wuhan, die het genetische materiaal van het virus gebruikt hadden voor het ontwikkelen van een gevoeliger en nauwkeuriger genetische test om SARS-CoV-2 te kunnen identificeren. Ze hadden er zelfs over gepubliceerd in het wetenschappelijke tijdschrift Small, echter zonder verwijzing naar de onderliggende gegevens in de databank.

Het bleek te gaan om gedeeltelijke genetische sequenties van het coronavirus, die het spike-gen en nog een paar andere belangrijke virusgenen omvatten. Wat echter Blooms speciale aandacht trok, was dat de monsters dateerden uit januari en februari 2020, toen de virusuitbraak in Wuhan nog vers was.

Bloom denkt dat zijn graafwerk nieuw licht werpt op de oorsprong van de pandemie. „ Je hoeft niet over de allereerste sequenties te beschikken om toch iets te kunnen herleiden van hoe het eerste virus bij mensen eruit gezien moet hebben”, zegt hij.

Genetische letter T

Bloom verwerkte de verdwenen sequenties in een genetische stamboom en daarbij zag hij dat het coronavirus in tenminste één monster sterk lijkt op alle verwante coronavirussen van vleermuizen. Dat virus heeft de genetische letter T op plaats 29.095 van het virusgenoom. De bekende vroege virussequenties uit Wuhan zijn meestal van patiënten die een link hadden met de Huanan-markt in de stad. Maar die virussen hebben op plek 29.095 in het genoom de letter C. „De vraag is wanneer de T een C werd”, zegt Bloom, „Het feit dat een vroeg virus in Wuhan een T had, suggereert dat ook de vroege voorouder van SARS-CoV-2 nog een T gehad moet hebben, die veranderde in een C nadat het virus op mensen was overgesprongen.”

De beheerder van de NCBI-databank heeft bevestigd dat de dataset die in maart 2020 werd aangeleverd, drie maanden later „op verzoek van de indiener” is verwijderd. Het argument daarbij was dat de informatie verwijderd moest worden „om versie-verwarringen te voorkomen” aangezien „de sequentie-informatie was vernieuwd, en zou worden gedeponeerd in een andere databank”.

Bloom heeft gezocht in andere databanken, maar heeft niets meer kunnen vinden. Een anonieme twitteraar meldde hem vorige week bovendien dat ‘projectnummer PRNJA612766’ ook is verwijderd uit de China National GeneBank (CNGB): dat gebeurde ergens tussen 19 juni en 23 juli 2020. Bloom mailde de Chinese onderzoekers drie weken geleden om te vragen waarom zij hun data hadden verwijderd, maar hij kreeg geen antwoord.

Individueel monster

Helemaal verdwenen zijn de data niet, er blijken in de NCBI-databank nog wel sporen te vinden van de gewiste data. Zoeken op projectnummer of experimentnummer, zoals Bloom deed, levert inderdaad geen resultaten meer. Maar zoeken op het Biosample-nummer (het nummer van een individueel monster) levert nog wel wat op. „Wow!”, reageert Bloom, als hij daarmee geconfronteerd wordt, „Ik denk dat niemand dat eerder ontdekt heeft, ikzelf ook niet! Ik ga hier wel verder mee zoeken.”

De informatie die nog vindbaar is met de Biosample-nummers is summier, de cruciale genetische sequenties die erbij horen ontbreken. Opvallend is dat de vermelding van twee monsters toch helemaal lijkt gewist. Al dan niet toevallig zijn dat de oudste monsters in verzameling, daterend van 15 januari 2020. Wat dat zou kunnen betekenen, is nog niet duidelijk.