Revue systématique de l’effet de la prescription électronique sur les erreurs médicamenteuses

Je vous parlais au début 2019 d’une revue systématique sur les effets de la prescription électronique avec aide à la décision. Cette revue avait inclus des articles allant jusqu’à 2016. Une nouvelle revue systématique avec méta-analyse sur le même sujet a été publiée au mois d’août.

Les auteurs de cette nouvelle revue ont révisé la littérature de 2007 à 2017 (inclusivement) et ont inclus les études randomisées ou prospectives chez les patients hospitalisés, à l’urgence ou en soins de longue durée. Les études incluses devaient avoir comme intervention une « stratégie de prescription électronique », définie comme de l’aide à la décision seule ou de la prescription électronique avec ou sans aide à la décision, comparée à un contrôle sans intervention électronique. Je trouve que cette définition est très large, l’aide à la décision seule (« standalone ») est une chose très différente de la prescription électronique (« computerized provider order entry ») intégrée à un dossier électronique. Les études rétrospectives, comparant deux modalités électroniques, avec plusieurs interventions à la fois, ou ciblant les patients externes, ont été exclues. Les issues évaluées étaient les erreurs médicamenteuses et les événements indésirables touchant le patient (« patient harm »).

Une stratégie de recherche systématique, incluant la sélection des articles et l’extraction de leur contenu de façon indépendante par deux chercheurs, a été menée. Les recommandations GRADE ont été suivies pour coter les articles. En fonction de critères prédéterminés, certains articles ont été inclus dans une méta-analyse pour des issues choisies, avec évaluation de l’hétérogénéité et du biais de publication.

2832 études ont été retrouvées, desquelles 38 ont été incluses après tout le processus de sélection, provenant de 12 pays. Le tableau 1 de l’étude décrit les études incluses. À la lecture de ce tableau, on constate au premier coup d’œil que les articles inclus sont extrêmement disparates. Parmi 11 études randomisées, 7 avaient comme sujet le contrôle automatisé de la glycémie avec une perfusion d’insuline aux soins intensifs ou en post-chirurgie, une ciblait le contrôle glycémique chez les diabétiques de type 2, une était à propos du dosage de mycophénolate après une transplantation rénale, une visait le choix d’antibiotiques empiriques en sepsis et une était à propos de la réhydratation chez les enfants avec vomissements ou diarrhée. Aucune étude avec un devis randomisé n’était donc réellement à propos de l’effet de la prescription électronique comme tel, il s’agissait toutes d’études portant un outil d’aide à la décision électronique dans un contexte clinique très précis. Les 11 études randomisées ont rapporté des données sur les événements indésirables touchant le patient et aucune n’a rapporté de données sur les erreurs de médicaments.

De même, parmi les 27 études non randomisées, seules 6 études chez l’adulte et 4 en pédiatrie portaient réellement sur l’effet d’un système de prescription électronique. Les autres portaient sur des outils d’aide à la décision dans le choix d’antibiotiques (8), le contrôle de la douleur (2), la détection d’interactions médicamenteuses (1), l’ajustement en insuffisance rénale (1), les nausées et vomissements post-opératoires (2), le bilan comparatif des médicaments (1), le traitement de la pneumonie (1) et la sédation (1). 18 de ces études ont rapporté des données sur les événements indésirables et 13 des données sur les erreurs médicamenteuses.

Au total, 10 de 13 études ont rapporté une diminution des erreurs médicamenteuses. La méta-analyse de 11 de ces études a démontré une réduction du risque d’erreur avec un risque relatif de 0.24 (intervalle de confiance 95% 0.13-0.46) avec une grande hétérogénéité et un possible biais de publication. L’effet était plus prononcé dans les études récentes.

En ce qui a trait aux événements indésirables, les événements rapportés étaient la mortalité, la durée de séjour, l’hypoglycémie, l’échec de traitement, l’hospitalisation et la réadmission, le délai de traitement, le contrôle de la douleur, les nausées et vomissements post-opératoires et les infections. On voit donc qu’il s’agit d’issues précises tirées des contextes cliniques des études incluses et qu’il ne s’agit pas d’issues évaluées à travers un grand nombre d’études. Ceci compromet la capacité de tirer des conclusions généralisables à la prescription électronique ou à l’aide à la décision dans son ensemble à partir de ces données. Les auteurs ont quand même réalisé une méta-analyse sur les différentes catégories d’événements indésirables mais rien de particulier n’en n’est ressorti hormis une diminution des « adverse drug events » avec un risque relatif à 0,52 (intervalle de confiance 95% 0,40-0,68), mais sur la base de seulement deux études. La définition de précise de cette issue n’est pas bien décrite, les auteurs semblent se baser sur la catégorisation des études incluses telle quelle, laquelle n’est pas expliquée.

Je crois que cette étude, malgré une méthode très solide et une intention louable, souffre d’avoir mal défini le type d’intervention qu’elle souhaitait évaluer. On a l’impression que les auteurs souhaitaient examiner d’un seul coup l’effet de n’importe quelle intervention électronique touchant à la prescription de médicaments ou à l’aide à la décision. Malheureusement, comme les auteurs le mentionnent dans leur discussion, les publications sont hétérogènes. Beaucoup d’études se focalisent sur un contexte clinique précis avec une intervention spécifique à ce contexte, et ceci ne produit pas de données pouvant être mises en commun avec d’autres interventions ou d’autres contextes.

Dans le contexte de l’aide à la décision, je suis de l’opinion que « l’électronique » est un support pour exposer un clinicien à une intervention (par exemple une alerte, une recommandation, une liste de choix filtrée, etc.) et qu’on ne peut pas évaluer l’effet de n’importe quelle intervention amenée via ce support comme un tout, en tout cas pas pour une variété de situations cliniques en même temps. J’ai déjà parlé abondamment sur ce blogue de l’importance de bien paramétrer les systèmes d’aide à la décision et en particulier les alertes, et je crois que la recette gagnante demeure d’afficher la bonne information, à la bonne personne, au bon moment et par le bon support.

En ce qui a trait à la prescription électronique, je pense qu’il est assez clair que cette technologie permet de réduire certains types d’erreurs, et, comme d’autres revues sur le sujet ont montré, que d’autres types d’erreurs peuvent survenir en fonction des caractéristiques du système mis en place.

L’article présenté ajoute à la masse de données qui suggère un effet bénéfique des technologies d’aide à la décision et de prescription électronique sur les erreurs médicamenteuses, néanmoins il est difficile d’attribuer l’effet observé à l’un ou l’autre considérant l’hétérogénéité des études incluses et la définition trop large de l’intervention étudiée.

Réduction du nombre d’alertes dans un système d’aide à la décision

Je vous parle aujourd’hui d’un article paru dans l’AJHP du mois d’avril, où des pharmaciens d’un centre universitaire de soins de santé situé au Texas décrivent leur intervention visant à améliorer la qualité des alertes générées par un système d’aide à la décision dans leur dossier clinique informatisé. On sait que les alertes générées par les systèmes disponibles commercialement sont beaucoup trop nombreuses, trop sensibles, fournissent peu d’informations pertinentes, et les quelques alertes cliniquement significatives sont noyées dans une marée d’alertes inconséquentielles. Ceci contribue à une désensibilisation aux alertes (alert fatigue).

L’institution à l’étude a procédé à l’implantation d’un dossier clinique informatisé commercial intégrant une banque de données d’aide à la décision en mai 2016. Afin d’améliorer la qualité des alertes proposées par défaut dans le système, un comité multidisciplinaire, incluant des pharmaciens, a été mis en place pour réviser les alertes et les optimiser. Les modifications ont commencé à être mises en place à partir de janvier 2017. L’étude décrit la quantité d’alertes et les taux d’actions sur les alertes de manière pré et post début des interventions du comité.

29 semaines ont été incluses dans la période pré et 52 dans la période post. Le nombre d’alertes générées à chaque semaine, de même que les taux d’acceptation d’alertes avec ou sans modification du traitement, ont été compilées. Les alertes ont été découpées en alertes d’interaction ou de duplication, et en alertes vues par les médecins ou les pharmaciens. L’analyse a été faite à la manière d’une série temporelle afin d’éliminer les effets d’autocorrélation entre la période pré et la période post.

En plus de la désactivation des alertes de duplication et interaction entre les médicaments d’une même ordonnance pré-établie, 802 alertes d’interactions médicamenteuses de sévérité modérée sur 875 ont été désactivées, certaines catégories d’alertes liées à la grossesse ont aussi été désactivées, ainsi que les alertes de duplication pour les ordonnances du même médicament dans diverses périodes de soins (ex: ordonnances intra-opératoires vs post-opératoires).

Le nombre médian d’alertes hebdomadaires est passé de 68 900 à 50 300, une différence statistiquement significative. Le taux d’acceptation d’alertes est passé de 11,8% en pré à 13,7% en post, et le taux de modifications de traitement est passé de 5% à 7,3%, des différences statistiquement significatives. Cependant, ces différences étaient dues à des augmentations des acceptations et modifications par les pharmaciens, et non par les médecins.

Je trouve cet article intéressant car il illustre bien comment s’y prendre pour mieux gérer les alertes à travers toute une institution. Je trouve cependant que toute cette situation est un peu surréelle. Les logiciels d’aide à la décision acquis par les établissements de santé devraient être performants et cliniquement utiles. On voit ici qu’un processus décisionnel lourd et impliquant une multitude de professionnels doit être mis en place pour gérer les alertes intempestives générées par un système commercial. Les coûts en temps et en ressources pour optimiser ce logiciel commercial doivent être assez élevés. Malgré la désactivation et l’optimisation de plusieurs alertes, en période post, on constate tout de même que plus de 85% des alertes étaient tout simplement ignorées. Je rappelle ici que certains hôpitaux ont décidé de tout simplement désactiver toutes les alertes de duplication, afin de réduire davantage le nombre d’alertes intempestives.

La démarche décrite dans cet article est louable et les résultats sont intéressants, mais le message clé à en tirer, je crois, est qu’il y a encore beaucoup de chemin à faire en ce qui a trait aux logiciels d’aide à la décision.

Utiliser le machine learning pour détecter les erreurs de prescription

Au début de 2017, je vous parlais d’un article décrivant un logiciel commercial de détection d’anomalies de prescription par machine learning. Cet article démontrait que plus de 75% des alertes générées par le système étaient valides par rapport aux données disponibles dans le dossier électronique de l’hôpital à l’étude et que plus de la moitié était de valeur clinique élevée.

Le même logiciel a fait l’objet d’une nouvelle étude parue en août 2019. Cette nouvelle étude a été réalisée dans un hôpital israélien de soins tertiaires de 1800 lits, mais une seule unité de médecine interne de 38 lits a été incluse. Les données ont été collectées du 1er juillet 2016 au 30 avril 2018.

Le logiciel intègre les données du dossier clinique informatisé de l’hôpital ainsi que les motifs (patterns) présents dans les pratiques de prescription du centre pour générer un modèle local, qui ensuite sert à l’analyse prospective de nouvelles ordonnances. Une rétroaction est donnée soit en temps réel lors de la prescription, soit en différé.

Durant l’étude, 4533 admissions ont eu lieu, générant 78 017 ordonnances. 315 alertes ont été générées pour 282 ordonnances, ce que les auteurs qualifient de faible et m’apparaît même extrêmement faible pour une système d’aide à la décision, quand on connaît le nombre très élevé d’alertes habituellement générées par de tels systèmes. Les auteurs ont comparé ces chiffres à ceux d’un autre système d’aide à la décision en place dans le même centre. On constate que 37% des ordonnances génèrent une alerte dans le système habituel comparativement à 0,4% dans ce nouveau logiciel.

Les alertes générées en temps réel étaient à 47% des alertes en lien avec des analyses de laboratoire, avec la sous-catégorie la plus fréquente qui était une alerte sur l’usage de sédatifs chez les patients avec hypercapnie. 42% des alertes en temps réel étaient liées au dosage. Les alertes asynchrones étaient générées lorsque la condition d’un patient changeait. La catégorie la plus fréquence de ces alertes était aussi l’usage de sédatifs chez les patients avec hypercapnie, suivie de près par l’usage de chronotropes négatifs chez les patients avec bradycardie.

Les auteurs rapportent la validité et l’utilité clinique des alertes. Je n’aime pas la méthode avec laquelle ces chiffres ont été déterminés: les auteurs ont pris la peine de vérifier la réponse des cliniciens aux alertes, mais la détermination finale de si une alerte était valide ou utile revenait à une seule personne, un « champion clinique » auteur de l’étude. J’aurais aimé voir une analyse externe par plusieurs personnes, possiblement même à l’aveugle de la réponse des cliniciens. De façon assez peu surprenante, 85% des alertes ont été jugées cliniquement valides et 80% cliniquement utile.

Les chiffres sur la réponse des cliniciens aux alertes sont plus intéressants. Environ la moitié des alertes ont généré un changement sur l’ordonnance dans un court laps de temps, ce qui est impressionnant considérant que la vaste majorité des alertes des systèmes d’aide à la décision classique sont ignorées. Les alertes les plus fréquemment associées à un changement étaient celles en lien avec le dosage, indiquant quand même que les alertes les plus fréquentes, sur l’hypercapnie et l’usage de sédatifs, n’étaient peut-être pas si cliniquement utiles.

Globalement, il s’agit d’un article très intéressant offrant des données sur l’impact clinique d’un logiciel d’aide à la prescription utilisant le machine learning. Les données présentées sont encourageantes, les alertes générées semblent être beaucoup plus utiles et pertinentes que celles générées par un système classique basé sur des règles programmées.

Cependant, le site web du produit et les publications des auteurs, du moins celles que je peux retrouver, n’offrent aucun détail technique sur le fonctionnement du logiciel, sur des forces et ses limites, ainsi que sur ses biais. 5 jours avant la publication de cet article, une autre publication du même journal appelait à la transparence. Je cite ici les deux phrases finales de l’abstract de cet article:

Hiding algorithms for commercial exploitation is unethical, because there is no possibility to assess whether algorithms work as advertised or to monitor when and how algorithms are updated. Journals and funders should demand maximal transparency for publications on predictive algorithms, and clinical guidelines should only recommend publicly available algorithms.