L’absence de preuve n’est pas une preuve d’absence

Le titre de cet éditorial n’est pas nouveau. Par exemple, il a été utilisé il y a près de dix ans pour un article de la série de notes statistiques du BMJ.1 Altman et Bland ont considéré les dangers d’une mauvaise interprétation des différences qui ne sont pas significatives, critiquant l’utilisation du terme “ décrire des études qui n’ont pas trouvé de différences statistiquement significatives. De telles études peuvent ne pas avoir été suffisamment importantes pour exclure des différences importantes. Donner l’impression qu’ils ont prouvé qu’aucun effet ou aucune différence n’existe est trompeur. Par exemple, un essai randomisé d’interventions comportementales et spécifiques d’infections sexuellement transmissibles pour réduire la transmission du VIH-1 a été publié dans le Lancet2. les ratios pour l’issue de l’infection par le VIH-1 étaient de 0,94 (intervalle de confiance de 95% 0,60 à 1,45) et de 1,00 (0,63 à 1,58) pour deux groupes d’intervention par rapport au groupe témoin. Dans l’abstrait, l’interprétation est: “ Les interventions que nous avons utilisées étaient insuffisantes pour réduire l’incidence du VIH-1 … ” Mais, en regardant à nouveau les intervalles de confiance, les résultats dans les deux bras de traitement sont compatibles avec un large éventail d’effets, d’une réduction de 40% de l’incidence du VIH-1 à une augmentation de 50%. Ainsi, donner un résumé des résultats qui donne l’impression que cette étude a montré que ces interventions ne sont pas capables de réduire l’incidence du VIH-1 est trompeur. Quelles pourraient être les implications pour les personnes à risque d’infection par le VIH-1? Il se pourrait qu’une intervention qui protège réellement contre l’infection ne soit pas largement utilisée. Il se pourrait aussi qu’une intervention qui nuit aux gens en augmentant l’infection par le VIH-1 soit considérée comme une intervention qui n’a aucun effet.” La vérité de ces situations ne peut être établie qu’en recueillant davantage de preuves, et les déclarations qui impliquent qu’une intervention n’a aucun effet pourraient en fait décourager d’autres études en donnant l’impression que la question a été résolue.Quand est-il raisonnable de prétendre qu’une étude a prouvé qu’aucun effet ou aucune différence n’existe? La bonne réponse est “ jamais, ” parce que certaines incertitudes existeront toujours. Cependant, nous devons avoir des règles pour décider quand nous sommes à peu près sûrs d’avoir exclu un avantage ou un préjudice important. Cela implique qu’un certain seuil doit être décidé, à l’avance, pour quelle taille d’effet est cliniquement importante dans cette situation. Ce concept n’est pas nouveau et est utilisé dans la conception d’études d’équivalence qui visent à montrer si une intervention est aussi bonne qu’une autre3 prurit. Des seuils, souvent appelés limites d’équivalence, sont définis entre lesquels un effet est désigné comme étant trop petit pour être important. Les résultats d’études d’efficacité, par exemple, peuvent ensuite être liés à ces seuils. Ceci est montré dans la figure, où l’intervalle de confiance d’une étude est interprété dans le contexte des limites d’équivalence prédéfinies. Figure 1 Relation entre l’intervalle de confiance, la ligne sans effet et les seuils pour les différences importantes (adapté d’Armitage, Berry et Matthews4 Bien sûr, définir de tels seuils n’est pas simple. Quelle est l’importance de la réduction de l’incidence de l’infection par le VIH-1? Quelle est l’importance de l’augmentation de l’incidence? Qui devrait décider? Dans quelle mesure les seuils doivent-ils être différents pour différents groupes de patients et différents résultats? Ce sont des questions difficiles, et bien que nous ne puissions pas trouver de réponses faciles, nous pouvons au moins être plus explicites en rapportant ce que nous avons trouvé dans notre recherche. Un libellé tel que “ nos résultats sont compatibles avec une diminution de cette quantité ou une augmentation de ce nombre de ” Que pouvons-nous faire pour nous assurer que dans une autre décennie nous serons plus près de suivre les conseils d’Altman et de Bland? Premièrement, en considérant les résultats d’une étude particulière dans le contexte de toutes les recherches disponibles qui considèrent que la même question peut augmenter la puissance statistique, réduire l’incertitude, et ainsi réduire le reportage déroutant des études sous-alimentées. Une telle approche pourrait avoir clarifié les implications d’une étude récente sur le tabagisme passif publiée dans le BMJ.5 Deuxièmement, les chercheurs doivent être précis dans leur interprétation et leur langage et éviter la tentation de sauver des mots en réduisant le résumé de l’étude à un tel dans la mesure où la signification correcte est perdue. Troisièmement, les revues doivent être disposées à publier des résultats incertains et ainsi réduire la pression sur les chercheurs pour qu’ils déclarent leurs résultats comme étant définitifs6. Nous devons créer une culture à l’aise pour estimer et discuter de l’incertitude.