Comment juger une étude scientifique ?

Sommaire

1 Une bonne étude scientifique ?
2 Protocoles expérimentaux
3 Analyse des résultats
4 Evaluation d’une étude scientifique
- 4.1 Exemple

Une bonne étude scientifique ?

Pour pouvoir être considérée comme sérieuse, une étude scientifique portant sur l’efficacité d’un traitement doit à minima suivre un protocole d‘essai contrôlé, randomisé, en double aveugle.

Une fois l’essai réalisé, il reste à interpréter correctement les résultats. Il convient d’appliquer proprement les règles d’analyses statistiques avant de conclure sur des résultats significatifs ou non.

Mais si l’on veut faire reconnaitre ou valider un traitement, une étude, même bien réalisée, ne suffit pas.

Il est ensuite nécessaire de publier l’étude dans une revue à comité de lecture, afin que d’autres spécialistes l’inspectent méticuleusement, puis que d’autres essais soient réalisés avec le même protocole, sur d’autres échantillons, pour confirmer que les résultats soient identiques.

Lorsque plusieurs études sont réalisées ainsi, on peut alors faire une méta-analyse, en combinant tous les résultats, pour faire apparaitre avec le plus de fiabilité possible, à quel point un traitement est efficace.

Protocoles expérimentaux

Echantillonnage

Il va sans dire que si une étude porte sur une petite poignée de sujets tous très similaires, l’étude ne pourra pas être bien crédible. Lorsqu’on prépare un échantillon (une liste de personnes volontaires pour être sujets dans une étude), la taille importe. Le calcul du nombre de sujets nécessaires doit être présenté dans l’étude, et l’on doit pouvoir vérifier que le nombre de sujets effectivement présents correspond.

Les critères d’inclusion et d’exclusion des volontaires pour être sujets doivent également être spécifiés. Il doit y avoir une définition claire de la population.

Groupe de contrôle

Pour que l’essai soit « contrôlé », il faut que le protocole prévoit la présence d’un groupe de contrôle.

Il s’agit d’un groupe de sujets qui ne recevra pas de vrai traitement.

Le but de ce groupe et de pouvoir identifier l’effet placebo, et le soustraire des résultats obtenus sur les sujets recevant le traitement réel.

Randomisation

Un anglissime bien moche… « random » signifie aléatoire, en anglais. Un essai est dit « randomisé » si les sujets formant les différents groupes, réels et de contrôle, y sont assignés aléatoirement.

On peut dire aussi, plus simplement « répartition au hasard ».

Le but est d’avoir une répartition équitable et des groupes comparables. Au delà d’avoir des nombres d’individus similaires, les différents groupes doivent être également constitués de la manière la plus homogènement naturelle possible, et le hasard permet cela en évitant tous les biais cognitifs humains (biais de sélection, biais d’alternance, biais de positivité etc…).

Double aveugle

Moins les participants en savent, mieux c’est pour la fiabilité de l’essai.

On différentie simple, double, et triple aveugle :

Simple aveugle : les sujets ne savent pas à quel groupe ils appartiennent. Le placebo administré au groupe contrôle est en tout point identique au traitement réel, en dehors de ce qui lui confère son efficacité.
Double aveugle : les thérapeutes ne savent pas si ils appliquent le traitement réel, ou un placebo.
Triple aveugle : les personnes qui recueillent les résultats ne savent pas si ceux-ci proviennent d’un placebo ou d’un traitement réel.

A chaque fois, il s’agit de réduire le plus possible l’influence d’effet placebo, de biais cognitifs, ou même de possibilité de tricher.

Le simple aveugle parait évident. Il est nécessaire, mais généralement insuffisant. En effet, on constate que, d’une manière ou d’une autre, le thérapeute peut laisser transparaitre quelque chose de différent suivant si il sait qu’il est en train d’administrer un placebo, ou un traitement réel. Cela peut influencer les résultats d’une manière significative.

Le triple aveugle permet d’éviter la manipulation volontaire des résultats et améliore la fiabilité lors de l’évaluations de critères subjectifs ou nécessitant une interprétation.

En général, on considère de fiabilité décente un essai en double aveugle. Mais il est vrai qu’il est souvent difficile à réaliser lorsqu’il s’agit de technique manuelle, voire énergétique/spirituelle, comme la microkinésithérapie. Cependant, il ne faut pas sous-estimer l’ingéniosité des chercheurs pour trouver des moyens de les mettre en place.

Publication dans une revue à comité de lecture

Etre publié dans une revue à comité de lecture ajoute un niveau de fiabilité significatif à une étude.

Avant de pouvoir être publiée ainsi, l’étude doit être analysée par un ou des experts du domaine étudié. Il s’agit d’une « relecture par les pairs », ou « peer review » en anglais. Ces experts sont nommés par l’éditeur, indépendamment de l’auteur, et vont pouvoir donner leurs avis, conduisant soit à la publication, avec ou sans modifications (une boucle de communication est possible afin d’améliorer certains points si nécessaire), soit au rejet de l’étude.

Même si, en pratique, ce processus pose pleins de problèmes, et est largement critiquable, cela reste un indicateur très puissant de la fiabilité d’une étude.

Reproductibilité

Une fois l’étude publiée, cela signifie entre autre que son protocole a été revu et validé, et est maintenant disponible de manière assez complète pour que n’importe qui puisse reproduire l’expérience à l’identique si il en a les moyens.

A chaque fois qu’un essai est reproduit, qui plus est par des personnes différentes, dans un endroit différent avec des échantillons différents, cela vient enrichir le dossier du traitement étudié, sur lequel on va maintenant pouvoir faire une méta-analyse, l’étape ultime du jugement d’un traitement.

Méta-analyse

Si elle est faite avec rigueur (et ce n’est pas si simple, mais il existe des méthodes bien définies), une méta-analyse va permettre d’éliminer la plupart des biais et anomalies en utilisant toutes les études sur un sujet donné. Elle va permettre d’obtenir une synthèse quantitative des résultats de tous les essais cliniques pour un traitement en particulier.

Pour juger de l’efficacité propre d’un traitement, il s’agit du meilleur moyen qui soit, le plus fiable et le plus complet, et qui ne peut aboutir qu’à la suite de beaucoup de travail.

Analyse des résultats

Jusqu’à présent nous avons surtout parlé de comment mener un essai clinique dans les règles de l’art, avec un protocole rigoureux pour son organisation et son déroulement.

Mais tout peut encore être ruiné par une mauvaise interprétation des résultats.

Critère d’évaluation

Une entourloupe classique consiste à titrer une étude sur un critère bien aguicheur, puis à conclure, en bien, mais en se basant, mine de rien, sur un autre critère (voire plusieurs)…

Attention, donc, il faut que le critère principal d’évaluation soit unique et pertinent, et, autant que possible, quantitatif. Il faut qu’il soit déclaré au début de l’étude, et effectivement utilisé pour l’analyse des résultats.

Le fait de choisir un critère unique permet par la suite de faire des calculs statistiques utiles. Autrement, en multipliant les critères, on se soumet à un phénomène d’inflation du risque alpha qui rend difficile l’extraction de données significatives.

Analyse en intention de traiter

Le nombre de sujets traités dois être le même au début qu’à la fin.

Il existe un problème, appelé problème d’attrition, qui est lorsque des sujets abandonnent, disparaissent, et rendent les groupes incomparables et/ou l’échantillon trop faible.

Analyse sur la totalité des sujets

Au delà du fait que le nombre de sujets doit rester constant tout au long de l’étude, il faut également que tous, sans exception, soient pris en compte lors de l’analyse finale.

Parfois, des sujets sont tout bonnement retirés des statistiques pour embellir les résultats.

D’autres fois l’analyse est faite par sous-groupe, ou bien des analyses intermédiaires sont faites sur une partie des patients etc… autant de combines dont il faut se méfier.

Résultat statistiquement significatif

Une fois que l’on a les résultats pour nos groupes « placebo » et « traitement réel », nous pouvons mesurer la différence sur notre critère d’évaluation, puis espérons pouvoir extrapoler le résultat à tout un type de population.

Le problème, c’est que cette différence, entre nos 2 groupes, risque encore d’être due, en plus ou moins grande partie, au hasard.

Ce risque s’évalue par l’intermédiaire de tests statistiques qui calculent la probabilité que la différence observée soit liée au hasard.

En appliquant consciencieusement la méthode statistique qui va bien, on trouve une valeur p, appelée communément « petit p », ou « p value » en anglais.

Il reste à déterminer un seuil en dessous duquel la valeur de petit p permettrait d’estampiller le résultat comme « statistiquement significatif ».

Ce seuil de risque, noté α (alpha), ou appelé « risque de première espèce » est arbitraire et décidé pour chaque domaine de recherche.

Par exemple, en kinésithérapie, si p > 0,05 (5%), on considère que le hasard seul ne suffit pas à expliquer la différence observée, et qu’il est donc probable que le traitement ait une efficacité propre.

Notez bien que, si une valeur de p supérieure au seuil de risque suffit à rendre inutile une étude (dans la mesure où l’on ne peut rien en conclure), une valeur plus petite ne permet pas encore de sortir le champagne… cela veut simplement dire qu’il est relativement improbable que le résultat soit le fruit du hasard, et que l’on peut commencer le travail d’interprétation.

Je ne veux pas trop m’étendre sur les statistiques, mais on peut noter qu’il existe aussi un « risque de deuxième espèce », noté β (beta), lié au risque de ne pas observer de différence, alors qu’il y en a une.

De la prise en compte des risques de première et deuxième espèce découle un autre critère important : la « puissance » du test.

Ainsi, la puissance d’un test exprime en pourcentage sa capacité à mettre en évidence statistiquement une différence entre les groupes. Une puissance est généralement considérée comme acceptable si elle dépasse les 80%.

Résultat cliniquement significatif

Une différence statistiquement significative ne signifie pas une différence cliniquement pertinente.

« Significatif » ne veut pas dire « grand » en statistique, et on peut se retrouver avec une étude fanfaronnant sur les résultats d’un test d’un traitement avec un super petit p, pour une amélioration, bien réelle, certes, mais d’une amplitude ridiculement petite n’ayant en fait aucun intérêt thérapeutique. Pensez par exemple à une amélioration de 1,5 degrés dans la flexibilité du genou, ou d’un dixième de point sur l’échelle d’évaluation de la douleur.

Il faut donc évaluer la taille de l’effet.

Il est généralement souhaitable de déterminer une différence minimale cliniquement intéressante (DMCI) qui, si elle n’est pas atteinte, permet de faire l’économie d’une analyse statistique longue et fastidieuse.

En début d’étude, on peut définir cette DMCI, et voir si les résultats obtenus dépassent ce seuil.

Corrélation et causalité

La corrélation n’implique pas la causalité. Souvent, nous voyons des liens entre deux choses qui n’en ont pas. Ou alors, pas dans le sens que l’on croit, ou qui nous arrangerait…

L’esprit humain est facilement biaisé dans ses raisonnements d’analyse. Il faut donc faire preuve de grande prudence lorsqu’on lit les conclusions d’une étude.

Je vous laisse rechercher sur internet pour avoir des exemples, avec les mots clés :

cum hoc ergo propter hoc (en latin « avec, donc conséquence de »)
post hoc ergo propter hoc (en latin « juste après, donc conséquence de »)
effet cigogne

En gros, gardez bien à l’esprit que si A et B vous semblent corrélés d’une manière ou d’une autre, c’est à dire que A s’est produit juste avant B, ou en même temps, ou que A et B évolue de la même manière ou dans le même sens, alors il y a bel et bien non pas une, ni juste deux, mais cinq possibilités:

A est la cause de B
B est la cause de A
A est la cause de B et, en même temps, B la cause de A
A et B ont toutes les deux une cause commune C
Le lien entre A et B est accidentel, sans aucun lien de causalité

Il faut donc faire attention aux conclusions hâtives (dont notre cerveau raffole).

Graphes

Il existe moult façons de truander sur un graphe. Je vous renvoie sur d’excellentes vidéos de Defakator sur le sujet :

Vous pouvez aussi consulter ce document, qui compile plusieurs exemples français de manipulation par les graphiques.

Il existe encore des pièges un peu plus subtils, comme le paradoxe de Simpson, dont il faut vraiment se méfier.

Evaluation d’une étude scientifique

Nous avons vu les principaux points sur lesquels se pencher. Certains sont absolument critiques (pas de groupe de contrôle? Au feu, direct), d’autres un peu moins, suivant les cas.

On peut aussi mentionner la bibliographie, les sources, les référencements, la notoriété des auteurs (leur H-index, leur rang sur expertscape etc…), leurs liens d’intérêts… mais cela fait plus partie du « jeu politique » de la science, que je préfère ne pas mettre en avant.

Différentes approches sont possibles, mais en ce qui me concerne et pour la rédaction de ce blog, je me base sur les « les 10 commandements » de Jean-Francois Bergmann, professeur de thérapeutique, qui reprend de façon concrète et numérotée les critères que je présente dans cet article :

1. Essai contrôlé
2. Etude randomisée
3. Essai en double aveugle
4. Calcul du nombre de sujets nécessaires
5. Définition claire de la population
6. Un critère principal d’évaluation unique et cliniquement pertinent
7. Analyse en intention de traiter
8. Une analyse en fin d’essai sur la totalité des patients
9. Différence statistiquement significative
10. Une différence cliniquement signifiante

[ source ]

Cela fourni une « checklist » simple, pratique à suivre lorsqu’on est en présence d’une étude et que l’on veut jauger sa fiabilité.

C’est également la liste utilisée dans l’évaluation des études scientifiques sur la microkinésithérapie dans ce mémoire universitaire.

Pour aller un peu plus loin, et pouvoir donner un grade, en fonction du niveau de preuve, à différents types d’études scientifiques, on peut utiliser la méthode publiée par la Haute Autorité de Santé (HAS) dans son guide d’analyse de la littérature et gradation des recommandations.

Il existe des grilles d’évaluations encore plus complètes, notamment celle du CONSORT (Consolidated Standards of Reporting Trials), en anglais, ainsi que d’autres groupes associées telle que le SPIRIT (Standard Protocol Items: Recommendations for Interventional Trials), qui offre même une traduction française de leur document.

Enfin, si vous voulez en apprendre plus sur la méthode scientifique, et son application pour l’analyse de différentes thérapie manuelles (dont la microkinésithérapie), je ne saurais trop vous recommander la lecture du livre « Tout ce que vous n’avez jamais voulu savoir sur les thérapies manuelles« , qui m’a servi de référence pour cet article.

Exemple

Retrouvez mon analyse complète d’une des études scientifiques les plus importantes sur la microkinésithérapie dans l’article intitulé : « Analyse de l’étude n°1« .

Articles