Utiliser le machine learning pour rédiger les instructions posologiques des médicaments

J’ai déjà parlé de plusieurs applications possibles du machine learning pour améliorer le fonctionnement des dossiers électroniques et pour certaines applications en pharmacie, son application en pharmacie d’établissement de santé étant un de mes intérêts de recherche. Un article publié en février 2021 dans le journal de l‘American Pharmacists Association décrit une application intéressante du machine learning pour assister le pharmacien dans un contexte de pratique communautaire. Dans ce contexte, la réception d’ordonnances électroniques avec des instructions en texte libre écrites par les prescripteurs comporte souvent des instructions inadaptées aux patients (par exemple, du jargon médical, des abréviations, des mots en latin). Les assistant-techniques en pharmacie et pharmaciens doivent « traduire » ces instructions en langage compréhensible par un patient qui n’a pas nécessairement de formation médicale. Cette traduction pourrait être effectuée par un modèle d’intelligence artificielle, ce qui épargnerait du temps et pourrait potentiellement diminuer les erreurs liées à ce processus manuel et variable.

L’objectif de l’étude était d’évaluer un modèle de traduction par intelligence artificielle développé à cette fin. Le modèle en question comportait un réseau de neurones appelé neural machine translation (un type de modèle bien connu et déjà utilisé dans d’autres applications), suivi d’une étape de vérification permettant d’éliminer des traductions incohérentes, puis d’une étape de normalisation. Le modèle avait été préalablement entraîné à partir de la banque de données comportant 537 710 ordonnances électroniques reçues par une pharmacie postale américaine en 2017 et 2018. Le développement et l’entraînement de ce modèle a été présenté à une conférence en novembre 2020. L’article décrit le processus de validation du modèle. Chaque ordonnance comportait 3 éléments utilisés pour l’étude: les instructions en texte libre émises par le prescripteur, les instructions en texte libre remises au patient et élaborées à la main par le personnel de la pharmacie, et les instructions en texte libre déterminées par le modèle d’intelligence artificielle à partir des instructions du prescripteur. D’autres variables étaient également utilisées, notamment la classe du médicament, afin d’orienter le modèle.

300 ordonnances non utilisées pour l’entraînement du modèle (jeu de test de la base de données) ont été échantillonnées et annotées par deux étudiants en pharmacie. Les divergences d’opinion ont été résolues par discussion avec un pharmacien et un chercheur auteurs de l’étude. L’annotation visait à coter les instructions par rapport à leur conformité aux pratiques recommandées pour l’étiquetage des médicaments selon une ligne directrice américaine, par exemple pour valider que toutes les composantes de la posologie étaient présents (dose, unité, voie, fréquence), que les motifs de prise pour les ordonnances au besoin étaient présents, etc. Ils ont aussi coté la « distance minimale » entre les différentes instructions en fonction d’une méthodologie décrite dans l’étude, un chiffre plus élevé indiquant le besoin de plus de manipulations de traitement de texte pour passer d’une chaîne à l’autre.

47 classes de médicaments étaient incluses dans les 300 ordonnances échantillonnées, dont 11,7% de médicaments pour de diabète, 8% de médicaments respiratoires, etc. 35 médicaments à haut risque étaient inclus. 279 ordonnances ont été incluses, celles d’instruments médicaux ayant été exclues. 70,3% des instructions transmises par les prescripteurs n’étaient pas conformes [notamment, 43,7 % contenaient une abréviation, du jargon ou des mots en latin], comparativement à 33,0% des instructions produites par le personnel des pharmacies et 29,7% des instructions produites par le modèle.

Les auteurs soulignent que 23 instructions produites par le modèle comportaient des erreurs de dose, d’unité ou de fréquence, dont 5 pour des médicaments à haut risque, comparativement à 2 pour les instructions produites par le personnel de pharmacie. Un exemple avec un sevrage de prednisone est donné dans l’article.

Les instructions produites par le modèle étaient plus près des instructions finales remises au patient: la distance minimale entre les instructions des prescripteurs et les instructions finales était d’une médiane de 30 (intervalle interquartile 19-47) alors qu’elle était de 18,5 (intervalle interquartile 0-36) entre les instructions du modèle et les instructions finales.

Les auteurs expriment la possibilité qu’un tel modèle serve de « premier pas » lors du traitement d’une ordonnance électronique, ainsi les instructions posologiques pourraient être éditées à partir du texte produit par le modèle plutôt qu’à partir des instructions du prescripteur directement, afin de réduire la charge de travail représentée par l’édition manuelle des instructions posologiques. Ils soulignent à juste titre que les erreurs d’interprétation de certaines posologies faites par le modèle sont un problème; dans ma propre expérience ce genre de situation (où un texte proposé « par défaut » est inexact ou erroné, même rarement) est très mal toléré par les cliniciens. Même s’il est attendu qu’ils éditent le texte, ceux-ci préférent généralement rien du tout plutôt qu’un texte pouvant comporter dans de rare cas une erreur. Les auteurs proposent des solutions possibles, comme par exemple une rétroaction par apprentissage par renforcement permettant au modèle d’identifier en temps réel les erreurs qu’il commet, l’inclusion d’un intervalle de confiance par rapport aux instructions présentées, ainsi que des changements à la manière dont les posologies sont transmises électroniquement pour diminuer le recours au texte libre.

Je trouve cet article intéressant, cette application me semble avoir du potentiel. Même en limitant l’utilisation du modèle aux cas où la performance du modèle serait très bonne, pour éviter les problèmes (ex: exclure les instructions complexes ou les formes pharmaceutiques plus rares), il serait possible de faciliter la vie du personnel des pharmacies dans la rédaction des instructions posologiques remises au patient. Dans le contexte québécois bien sûr, ceci nécessiterait une augmentation significative de la proportion d’ordonnances transmises électroniquement et des améliorations aux logiciels de pharmacie communautaire.

Facteurs associés à l’annulation d’ordonnances électroniques

Un article publié en novembre 2020 dans JAMIA décrit l’utilisation de données provenant d’une fonctionnalité d’annulation d’ordonnances électroniques (« void« ) qui visait à indiquer qu’une ordonnance était une erreur. L’étude avait pour objectif de décrire la nature des erreurs qui avaient fait l’objet d’une annulation et d’explorer les facteurs de risque et stratégies de prévention de ces erreurs.

L’étude a eu lieu dans un centre académique américain de 495 lits utilisant un logiciel de dossier électronique commercial. Les ordonnances annulées durant une période de 16 mois, soit du 25 août 2017 au 31 décembre 2018, ont été incluses. Suite à une annulation d’ordonnance, l’équipe de recherche contactait le clinicien dans un délai de 24 heures pour obtenir des détails sur les circonstances de l’annulation, et les détails de l’annulation dans le dossier électronique étaient révisés. Le modèle SEIPS dont j’ai déjà parlé il y a plusieurs années a été utilisé pour analyser les erreurs, de manière à identifier les facteurs contributifs au niveau des personnes, des tâches, des technologies, de l’environnement et des aspects organisationnels.

1074 ordonnances ont été annulées durant l’étude. Toutes les ordonnances ont pu être analysées, et 387 entretiens ont été menés 355 sondages ont été remplis par 286 cliniciens impliqués dans les annulations. 842 annulations des 1074 (78%) étaient de véritables erreurs. La majorité des erreurs étaient des ordonnances faites par des médecins (63%) et la plupart ont aussi été annulées par des médecins (54%); les autres cliniciens les plus impliqués étant des infirmières ou pharmaciens.

Sur la base des données collectées dans les dossiers, les erreurs les plus fréquentes étaient des duplications d’ordonnances dans 51% des cas, des erreurs posologiques dans 22% des cas, des erreurs de patient dans 11% des cas, des erreurs cliniques dans 7% des cas suivi d’autres raisons dans des proportions moins fréquentes. Aucun événement indésirable découlant des erreurs n’a été rapporté, cependant 190 erreurs (22%) se sont rendues au patient avec au moins une dose de médicament administrée avant que l’erreur ne soit interceptée.

Les facteurs impliqués dans les erreurs sont sans grande surprise, je liste ici ce qui est principalement identifié mais il est utile de lire la section très détaillée sur ce sujet dans l’article.

  • Facteurs technologiques: la confusion dans la présentation de l’information dans le dossier électronique, la conception des alertes et le manque de formation sur l’utilisation du logiciel.
  • Facteurs cognitifs: la surcharge d’alertes, la charge de travail, les distractions.
  • Facteurs sociaux: les difficultés de communication entraînant une mauvaise compréhension entre différents cliniciens (en particulier lors d’ordonnances verbales) ou avec le patient.
  • Facteurs environnementaux: les interruptions, le bruit, le manque de temps, les alarmes.
  • Facteurs organisationnels: la charge de travail, le manque de personnel, le manque de diffusion de protocoles et les déviations par rapport aux protocoles.

L’article n’apporte rien de bien surprenant en termes de facteurs contributifs, ceux-ci sont largement connus et déjà démontrés comme des causes d’erreurs dans une variété de circonstances; pas seulement dans le cadre de la prescription électronique. Il est cependant surprenant de voir que près du quart des erreurs de prescription ont mené à l’administration d’au moins une dose du médicament erroné au patient, ce qui me semble beaucoup. Ceci peut être un reflet des processus en place dans le centre où l’étude a eu lieu mais pourrait aussi indiquer que la fonctionnalité d’annulation dans un logiciel de prescription électronique est plus susceptible d’être utilisée pour les erreurs « significatives » par rapport aux erreurs plus mineures qui ne mènent pas à des conséquences tangibles.

Recommandations pour la réduction de la désensibilisation aux alertes

Beaucoup d’articles récents s’intéressent aux alertes dans les dossiers électroniques, aux raisons expliquant leur inefficacité, aux problèmes qu’elles causent, en particulier la désensibilisation, et aux façons de les améliorer. Une publication de janvier 2020 disponible gratuitement en texte complet sur PubMed Central présente les recommandations de quatre institutions américaines visant à améliorer les alertes présentées aux cliniciens.

L’introduction de cette article est une bonne revue du problème de désensibilisation aux alertes et des stratégies proposées pour diminuer le nombre d’alertes et conserver uniquement celles qui sont cliniquement significatives.

Les sujets abordés dans l’article sont:

La gouvernance

Les auteurs expliquent l’importance d’avoir un type de gouvernance pour les alertes adapté à la culture de l’organisation. Ils proposent une méthode de fonctionnement qui inclut la révision systématique des alertes qui dépassent des seuils établis, à des fins de désactivation ou ajustement. Il est particulièrement important de bien évaluer les alertes où un groupe demande qu’un autre groupe reçoive une alerte, et d’inclure à la fois les gens qui demandent une alerte et ceux qui la reçoivent dans les discussions. Les auteurs proposent une liste de vérification à suivre lorsqu’une création d’alerte est demandée, et celle liste inclut une définition des métriques qui vont être suivies pour valider la performance de l’alerte.

Le design des alertes et leur performance

L’article inclut une liste de métriques proposées afin d’évaluer la performance d’une alerte. Un point intéressant est de réfléchir aux alertes comme on le ferait pour un test diagnostique, en divisant les résultats de l’alerte en tableau 2×2 avec sur un axe le comportement de l’alerte (déclenchée ou non) et sur un autre la condition du patient (présente réellement la condition ou non). Ceci permet d’utiliser toutes les métriques bien connues de ce type de tableau pour évaluer la performance de l’alerte. On peut ainsi définir le problème de désensibilisation aux alertes actuel comme un problème de sensibilité trop élevée: les alertes présentent en général des taux de faux positifs beaucoup trop élevés. De cette façon, l’amélioration de la performance des alertes peut être mesurée avec, par exemple, le changement de la valeur prédictive positive.

Une emphase est placée sur le design des alertes. En particulier, il est utile de considérer le degré d’interruptivité de l’alerte lors de sa conception ou de son amélioration, qui peut aller d’une alerte non-interruptive qui affiche de l’information au clinicien sans lui demander de réponse, à une alerte interruptive qui requiert un clic pour continuer, une alerte interruptive qui requiert une documentation de raison, et même une alerte interruptive impossible à contourner.

L’article discute également des stratégies pour le test et l’évaluation des alertes avant leur déploiement, notamment l’importance de tester avec des dossiers réalistes et non des scénarios épurés ou seule la nouvelle alerte est déclenchée. Également, les stratégies de test avec évaluation sur des données rétrospectives ou prospectivement en mode « silencieux » avant le vrai déploiement sont présentées, de manière à pouvoir caractériser la performance d’une alerte avant même qu’elle ne soit présentée aux cliniciens. Bien sûr, tout ceci suppose la capacité de l’organisation de réaliser ce type d’analyse (par exemple en ayant au sein de son personnel des gens capables d’extraire ce type de données et de réaliser ce type d’analyses), et la capacité du logiciel de permettre ces analyses.

L’article conclut en présentant les exemples de deux institutions américaines et des choses qu’ils ont mises en places en réponse à ces principes. Cet article est de façon générale une bonne revue des principes de gestion des alertes et présente de bons exemples desquels s’inspirer.