5

Cuisine industrielle


Une expérience scientifique est présumée reproductible. C’est là une des caractéristiques qui la définit. Mais, en pratique, les scientifiques reproduisent rarement les expériences de leurs collègues et rivaux. Ils font confiance aux résultats publiés, qu’ils supposent fiables, solides et surtout reproductibles.

Il y a parfois d’excellentes raisons à cette absence de reproduction des expériences.

L’expérience peut avoir impliqué des observations, par exemple sur un écosystème ou le comportement d’une espèce animale, que le chercheur a été le seul à faire. C’est sans doute la raison pour laquelle les expériences menées en éthologie ne sont jamais reproduites32. L’expérience peut aussi avoir été menée à l’aide de dispositifs techniques qu’une seule équipe au monde possède. C’est le cas en physique des hautes énergies. Il ne viendrait à personne l’idée de reproduire les expériences menées durant des années par une équipe de centaines de physiciens du Conseil européen pour la recherche nucléaire (CERN) qui ont conduit à la mise en évidence du boson de Higgs. Sa validation se fera en reprenant les mesures et les calculs qui les ont analysées, non en refaisant l’expérience, puisque seul le gigantesque accélérateur de particules du CERN permet de la mener, et surtout en vérifiant la cohérence de ces résultats avec ceux d’autres expériences à venir dans ce domaine.

Même les sciences les plus solidement établies, comme la cosmologie, peuvent être en proie à de vives controverses nées de l’impossibilité de reproduire des expériences dans des laboratoires utilisant des dispositifs expérimentaux différents, générant des résultats difficilement comparables, comme l’a démontré le sociologue des sciences britannique Harry Collins dans son étude des controverses sur les ondes gravitationnelles33. De manière plus subtile, les recherches faisant appel à la simulation numérique, de plus en plus nombreuses dans des domaines aussi variés que la biologie structurale, la climatologie ou la cosmologie, ne peuvent davantage être reproduites. Chaque modèle est en effet unique, notamment parce qu’il agrège une combinaison de sous-modèles (par exemple de l’ensoleillement, de la circulation atmosphérique, des courants océaniques, des nuages, etc., pour un modèle du climat). Les prédictions de chaque modèle (par exemple, l’évolution attendue des températures terrestres) lui sont donc propres et ne peuvent être reproduites par un autre modèle, construit différemment. C’est là un problème important pour la validation des connaissances sur l’évolution attendue du climat terrestre.

Mais il y a parfois aussi de bien moins bonnes raisons. Et en particulier, une fois encore, dans le domaine biomédical, qui est en train de découvrir avec inquiétude que la plupart des données publiées ne peuvent être reproduites par d’autres laboratoires.

Crise de reproductibilité

En 2011, trois chercheurs de la firme pharmaceutique allemande Bayer ont examiné 67 projets de recherche internes à la firme dans le domaine de l’oncologie, de la gynécologie et des maladies cardiovasculaires. Menés durant quatre ans, ces projets avaient en commun de se situer très en amont dans le processus menant à l’invention d’un nouveau médicament, au niveau de ce que les spécialistes appellent « l’identification de la cible », c’est-à-dire la description d’un mécanisme cellulaire qui semble suffisamment crucial dans la pathologie pour que l’on puisse envisager de rechercher des molécules susceptibles de le modifier. La recherche industrielle est, à ce stade, très proche de la biologie fondamentale. C’est du reste la raison pour laquelle les chercheurs des entreprises pharmaceutiques puisent une bonne part de leurs idées dans la lecture des articles parus dans la littérature spécialisée. Pourtant, ont constaté les chercheurs de Bayer, seulement 21 % des articles qui avaient conduit au lancement de ces 67 projets de recherche internes à la firme se sont avérés décrire des données entièrement reproductibles entre leurs mains, 7 % reproductibles dans leurs grandes lignes et 4 % partiellement reproductibles34. En d’autres termes, les deux tiers des études étaient impossibles à reproduire. Et ce n’est pourtant pas faute d’efforts pour y parvenir, cette évaluation ayant, pour chaque projet, impliqué trois spécialistes à temps plein pendant près d’un an. Peu après, des chercheurs de la firme Amgen se sont livrés au même type d’analyse sur 53 études ayant servi à lancer, au sein de l’entreprise, des projets de recherche préclinique dans le domaine du cancer. Avec un résultat plus accablant encore : 11 % seulement de travaux reproductibles35 !

Entre 75 et 90 % des résultats publiés dans les meilleures revues dans le domaine de la biomédecine ne sont donc pas reproductibles. Une première manière d’expliquer ce constat est de souligner que le vivant est tellement complexe, et tellement mal connu, que, même avec la meilleure volonté du monde, aucun chercheur ne peut décrire avec suffisamment de précisions l’expérience qu’il a faite pour qu’un autre chercheur puisse la reproduire. La psychologie, qui fait face à encore plus de variabilité intrinsèque à son sujet d’étude, est du reste la seule autre discipline à se préoccuper aujourd’hui des problèmes récurrents de reproductibilité : seulement un tiers des résultats d’une centaine d’études publiées dans les meilleures revues du domaine a pu être reproduit par un collectif de chercheurs36. Demandez à bien des physiciens pourquoi leur discipline est épargnée par la montée des rétractations frauduleuses et ils répondront avec une hauteur aristocratique amusée : « Parce que la physique est une science. » Le prix Nobel de physique Ernest Rutherford, un des découvreurs de la radioactivité, le disait déjà au début du siècle dernier : « Il n’y a qu’une science, la physique. Tout le reste n’est que collection de timbres. » Comme la philatélie, la biologie doit en effet s’efforcer d’ordonner un monde, celui du vivant, à la diversité inextricable.

Tant de paramètres entrent en jeu dans la conduite d’une expérience en biologie et a fortiori en psychologie : les lignées cellulaires ou animales utilisées, la provenance des réactifs, le savoir-faire de l’expérimentateur… Une « manip » qui marche à tout coup, plaisante-t-on dans le milieu, est un TP destiné à l’enseignement non une authentique expérience. Un chercheur de l’Inserm explique :

Les chercheurs en biologie aiment à raconter des anecdotes illustrant ces impondérables qui font qu’une expérience marche ou ne marche pas. Ici, ce sont les pics d’ozone de la pollution parisienne qui empêchent la croissance de telle lignée cellulaire. Ailleurs, on incrimine les saisons, telle souche bactérienne ne poussant que très mal en hiver. Ailleurs encore, on se penche sur de minuscules détails : telle réaction biochimique ne se produit que dans un tube à essai tenu par un chercheur travaillant sans gants, peut-être parce que la chaleur de ses doigts suffit à catalyser la réaction. Autant d’anecdotes impossibles à vérifier, mais qui illustrent combien les dispositifs expérimentaux de la recherche en biologie sont mal, très mal, maîtrisés. Même dans les conditions optimales pour tester la reproductibilité (un même chercheur reproduisant dans le même laboratoire avec les mêmes réactifs une expérience à cinq mois d’écart), on trouve des différences non négligeables, comme l’a montré un travail sur l’identification des gènes humains interagissant avec ceux du virus de la fièvre jaune. En cinq mois, le taux d’infection des cellules humaines par le virus est passé de 90 à 98 %, les auteurs reconnaissant humblement n’avoir aucune idée pour expliquer cette variation37.

Comment, dans son quotidien, un laboratoire gère-t-il cette fréquente impossibilité de reproduire ses propres résultats ? Une passionnante enquête des anthropologues des sciences Grégoire Molinatti et Philippe Hert38 s’est penchée pour la première fois sur cette question. Le hasard des observations de terrain a conduit ces deux chercheurs dans un laboratoire de neurosciences marseillais en proie à une vive controverse interne depuis que des travaux publiés par une des équipes du laboratoire avaient échoué à reproduire l’expérience qui faisait la renommée de son fondateur, à savoir qu’un neuromédiateur, le GABA, connu pour son rôle d’inhibiteur de l’activité neuronale chez l’adulte, était excitateur chez l’embryon de mammifère. La première réaction de la direction du laboratoire est d’organiser une confrontation entre les tenants des deux thèses. « L’idée idéaliste, au départ, c’était qu’on allait éclaircir cette controverse et que les gens allaient échanger les cahiers de manip, que des analyses soient faites, à nouveau, croisées », explique un chercheur de l’institut. Mais la tentative échoue. Dirigée par des « sages » du laboratoire, engagés ni dans un camp ni dans un autre de la controverse, la commission d’enquête ne peut expliquer que les uns trouvent que le GABA est excitateur et les autres inhibiteurs. Et les sages s’avouent bien embarrassés. « Voilà, on comprend toujours pas pourquoi, ce qui s’est passé… On n’avait détecté aucun signe de contrefaçon ou d’expérience mal faite », dit l’un. « Ben moi, j’ai pas vraiment d’explications, finalement. Je ne sais pas si ce sera réglé un jour ou l’autre », avoue un autre.

S’ensuit une détérioration de l’ambiance au sein de l’institut, chaque camp étant enclin à accuser l’autre de fraudes ou de tricheries. Faute de s’en remettre au verdict de l’expérience, qui ne peut être rendu, on s’en remet aux réputations des uns et des autres : si tel chercheur a été formé par tel maître réputé pour sa rigueur, il n’a pu manquer à l’intégrité scientifique. L’argument est utilisé dans les deux camps. Le débat durant et occupant une part importante de la vie du laboratoire, on commence à redouter qu’il ne nuise à sa compétitivité dans la concurrence scientifique internationale, que sa réputation n’en vienne à être affectée. L’affaire s’envenime encore lorsqu’il s’avère que chacune des parties prenantes a des intérêts commerciaux évidents, par le biais d’entreprises de biotechnologie fondées sur la base de leurs travaux, à défendre la thèse qu’elles défendent. Qui a raison ? Qui a tort ? Le travail des deux anthropologues n’est évidemment pas de répondre à cette question, qui reste irrésolue : les protagonistes de cette controverse se sont, de fait, tacitement entendus pour la régler par le départ des chercheurs contestant l’idée que le GABA soit excitateur chez l’embryon du laboratoire marseillais. Ce travail de recherche d’anthropologie des sciences a le grand intérêt de souligner combien des arguments ne relevant en rien du débat rationnel sur les données expérimentales, et en particulier l’invocation de la réputation d’un chercheur ou de la confiance qu’on lui accorde, sont mobilisés dans les controverses nées des difficultés à reproduire les résultats expérimentaux.

Un embellissement généralisé ?

Il est d’autres explications, bien moins charitables, au constat de l’impossibilité de reproduire l’essentiel des expériences biomédicales.

Par exemple que le one shot dans le jargon des chercheurs, à savoir de publier son résultat « tant que cela marche », car le reproduire ferait courir le risque « que cela ne marche plus » se répand. Cette volonté de publier au plus vite conduit souvent à de déplorables arrangements avec la rigueur.

La pharmacologue Nicole Zsurger du CNRS raconte :

Ou que, autre pratique répandue, la rédaction de la description de l’expérience ait été subtilement conçue pour omettre, dans l’exposé des méthodes, quelques minuscules détails clés, de manière à préserver son avance sur la concurrence en l’empêchant de combler son retard en reproduisant l’expérience. Comme le reconnaît un chercheur du laboratoire de neurosciences marseillais étudié par Grégoire Molinatti et Philippe Hert, les expériences sont toujours difficilement reproductibles à cause des « petits trucs non présentés ou détaillés dans le matériel et méthodes ». Le sociologue des sciences Harry Collins, que nous évoquions au début de chapitre, parle à ce sujet de « savoirs tacites », non explicités dans les sections méthodologiques des articles, mais qui n’en jouent pas moins un rôle déterminant dans la possibilité de reproduire ou non une expérience.

Ou encore que l’embellissement des données soit si répandu que ce que décrivent les articles n’a plus qu’un lointain rapport avec la réalité des données obtenues. Une autre étude menée par un industriel, la société de biotechnologie italienne BioDigital Valley, va clairement dans le sens de cette interprétation. Cette entreprise a constitué une gigantesque base de données de centaines de milliers d’images de gels d’électrophorèse (une méthode classique de biochimie permettant de séparer les protéines) dans différents types de pathologies. Pour s’assurer d’une qualité maximale de leur base de données, dont l’accès est commercialisé auprès de grandes entreprises pharmaceutiques, les chercheurs de BioDigital Valley ont commencé par la purger des images publiées par des chercheurs ayant cosigné avec des auteurs ayant rétracté au moins trois articles, dont on peut donc soupçonner, si ce n’est l’honnêteté, du moins l’habileté expérimentale. Surtout, à l’aide d’un logiciel spécialement conçu, ils ont entrepris une sorte de contrôle qualité des images de gels d’électrophorèse. Le quart d’entre elles s’avère inutilisable car manipulé à un titre ou à un autre : un taux exactement semblable à celui qu’ont trouvé les éditeurs de Journal of Cell Biology et de l’European Molecular Biology Organization en soumettant les manuscrits qui leur étaient soumis à un logiciel de retouche d’images (voir chapitre 3). Surtout, 10 % des images présentent des indices de fraudes grossières, comme de découper et recoller ailleurs des bandes indiquant la présence de telle ou telle protéine39.

Les chercheurs de la firme Amgen ont, de leur côté, eu la curiosité de solliciter l’avis des auteurs des publications qu’ils avaient tenté de reproduire. Pour les six reproductibles, ils notent que leurs auteurs « faisaient très attention aux contrôles, aux réactifs et aux biais introduits par l’expérimentateur » et qu’ils décrivaient « l’ensemble de leurs données », toutes attitudes que l’on avait la naïveté de croire partie intégrante de la rigueur scientifique. Pour les 47 non reproductibles, ils observent que les données ne sont en général pas analysées en aveugle par un chercheur ignorant s’il a affaire au groupe témoin ou au groupe expérimental. « Les chercheurs présentent souvent les résultats d’une seule expérience. Ils reconnaissent parfois présenter une expérience en particulier parce qu’elle confirme leur hypothèse, bien qu’elle ne soit pas représentative de l’ensemble des données collectées », précisent-ils.

Variabilité du vivant, dans des dispositifs expérimentaux mal maîtrisés ? Ou embellissement systématique des données ? Les deux hypothèses ne s’excluent pas. Comme le déplorent les chercheurs d’Amgen :

Les éditeurs des revues scientifiques, leurs relecteurs, et les évaluateurs des demandes de financement sont le plus souvent à la recherche de découvertes scientifiques simples, claires et complètes : des histoires parfaites. Il est donc tentant pour les chercheurs de publier seulement les données qui correspondent à ce qu’ils veulent démontrer, voire de cuisiner les données pour qu’elles correspondent à l’hypothèse sous-jacente. Mais le problème est qu’il n’y a pas d’histoire parfaite en biologie.

Suspicieuse industrie

N’est-il pas piquant d’entendre les industriels, si souvent accusés de coupables dissimulations, donner des leçons de rigueur et d’intégrité aux chercheurs académiques ? C’est que la recherche privée obéit à une tout autre logique, plus pragmatique. Pour le dire crûment, on aura l’occasion d’y revenir au chapitre 6, la carrière d’un chercheur académique ne dépend que du nombre de ses articles et de la renommée des revues qui les publient. Que ses résultats soient ou non reproductibles est d’une certaine manière secondaire. Un chercheur industriel a de tout autres préoccupations. Peu lui importe de publier dans des revues prestigieuses. Ce qui compte, pour lui, est que les résultats soient robustes, fiables, parfaitement reproductibles. Difficile en effet d’engager le milliard de dollars que coûte aujourd’hui le développement d’un nouveau médicament sur la base d’une recherche bancale, de résultats dépendant du taux d’ozone, de la saison ou des gants de l’expérimentateur.

Une autre raison de l’intérêt des entreprises privées pour ces questions de reproductibilité tient à la défense de leur image autant que de leurs intérêts. Nul n’ignore que la question des risques pour la santé humaine des organismes génétiquement modifiés (OGM) est un sujet de polémiques récurrentes depuis une quinzaine d’années. Pour les entreprises productrices d’OGM, il était donc inquiétant que des chercheurs de l’université de Nanjing (Chine) démontrent la présence dans le sang de personnes ayant mangé du riz transgénique de certains acides nucléiques (ces molécules codant ou exprimant l’information génétique) typiques du riz génétiquement modifié40. L’étude chinoise montrait de surcroît qu’un de ces acides nucléiques, le miRNA 168a, pouvait passer dans la circulation sanguine de souris nourries de riz transgénique. Vu le débat mondial sur les risques pour la santé des OGM, ces résultats étaient pour le moins explosifs. Ne pouvait-on craindre que ce miRNA 168a ne vienne perturber le fonctionnement génétique des cellules de la souris ? Et que, en extrapolant chez l’homme, la consommation d’OGM ne soit susceptible de perturber le métabolisme humain ? En Australie et en Nouvelle-Zélande, on prit l’alerte très au sérieux : alarmée par l’étude de Cell Research, les autorités chargées de la veille sanitaire diligentèrent une commission d’experts chargée de redéfinir les législations nationales à la lumière de ces nouvelles données. Mais un an plus tard, des chercheurs de Monsanto et de la petite firme de biotechnologie miRagen Therapeutics publiaient dans Nature Biotechnology un article annonçant qu’ils n’avaient pu reproduire les résultats des chercheurs chinois41. Cell Research, auquel cette étude avait été soumise, en avait décliné la publication au motif qu’« il est pour le moins gênant de publier une étude dont les résultats sont largement négatifs ». Pourquoi Nature Biotechnology n’a-t-elle pas eu ces réticences ? On l’ignore. Mais l’histoire montre en tout cas que la publication de résultats négatifs, en particulier lorsqu’ils viennent contredire une étude antérieure, n’est réservée qu’aux sujets polémiques alimentant un feuilleton médiatique. Il ne nous appartient pas ici de savoir qui a raison dans cette dispute. Notre propos n’est que de souligner que ce sont des chercheurs de l’industrie, et non d’universités ou de centres de recherches publics, qui ont pris la peine de refaire des expériences aux résultats surprenants.

Jusqu’à il y a quelques années, les chercheurs de l’industrie pharmaceutique tenaient pour valides les résultats publiés dans la littérature biomédicale spécialisée. Leur suspicion, ils la réservaient aux brevets, souvent rédigés avec bien moins de rigueur que les publications, et aux essais cliniques de leurs propres molécules dans les hôpitaux. De nombreuses méthodes statistiques ont été développées à cette fin pour identifier les embellissements de données par les médecins responsables des essais. Elles traquent par exemple pour un essai supposé durer jours la distribution du nombre de jours durant lesquels les patients sont décrits comme ayant participé à l’essai. Laquelle a trop souvent une fâcheuse tendance à être très concentrée sur n, alors que, dans le quotidien d’un hôpital, les patients vont, viennent, guérissent, parfois meurent, toutes raisons faisant qu’il est des plus improbables que presque tous les patients reçoivent durant n jours le traitement expérimental. Ce contrôle par les industriels de la vraisemblance statistique des résultats rapportés par les essais cliniques est toujours de mise. La grande nouveauté est que la suspicion a priori s’étend aujourd’hui au laboratoire, à l’amont de la recherche clinique.

De déconvenue en déconvenue, à force de dépenser des millions à acheter des licences sur des brevets déposés par des universités ou des centres de recherche décrivant des inventions qui ne fonctionnaient pas entre leurs mains, les industriels ont appris à se méfier de ce que les chercheurs prétendent avoir découvert. Les investisseurs en capital-risque en ont fait de même. Ils tiennent aujourd’hui pour admis que la moitié des recherches académiques, même publiées dans les revues les plus prestigieuses, ne peuvent être reproduites de manière suffisante pour justifier la fondation d’une entreprise de biotechnologie42. Mais rassurons-nous sur les capacités d’initiative du secteur privé : la reproductibilité des résultats scientifiques est devenue un marché depuis que des entreprises se proposent de commercialiser des « certificats de reproductibilité » aux expériences amenées à être publiées qu’elles ont pu refaire dans leurs propres laboratoires !