Révision d’ordonnances pré-rédigées assistée par machine learning

Un article paru au début du mois dans le JAMIA a attiré mon attention. Le titre laisse entendre que les auteurs ont élaboré un processus de révision d’ordonnances pré-rédigées assisté par machine learning. Ma propre expérience m’a montré que ce processus est généralement long et complexe, même pour des ordonnances pré-rédigées apparemment simples. J’étais donc bien intéressé à voir ce que ces chercheurs ont fait. J’ai été un peu déçu…

L’objectif de l’étude est vaguement décrit. Les auteurs ont comparé six approches de révision d’une seule ordonnance pré-rédigée dans leur institution. L’ordonnance en question est celle de demande d’analyses de laboratoire le matin, un exemple très simple. Les approches comparées étaient individuellement:

  • Par les connaissances cliniques
  • Par les statistiques populationnelles
  • Par machine learning

Et les auteurs arrivent à 6 méthodes en combinant celles-ci. La variable dépendante était la charge de travail définie par le nombre de clics de souris nécessaires lors de la rédaction de l’ordonnance (une mesure assez discutable). Les données sur l’utilisation de cette ordonnance ont été extraites de septembre 2014 à octobre 2015 du dossier électronique de l’institution (plus ou moins décrite, mais on comprend de l’affiliation des auteurs que c’est un hôpital situé à New York), et incluaient 998 946 instances d’ordonnance pour 37 924 patients, ainsi que 3561 ordonnances d’analyses de laboratoire additionnelles placées dans un intervalle de 10 minutes avant ou après l’ordonnance pré-rédigée.

L’apport du machine learning dans le processus de révision était essentiellement de déterminer si chaque analyse de laboratoire devait être sélectionnée par défaut ou non dans l’ordonnance révisée, ce pourquoi je disais être déçu. En effet, cette technique ne semble pas avoir été appliquée à la sélection du contenu de l’ordonnance.

L’approche de machine learning semble valide mais est peu décrite, je crois comprendre que les auteurs ont utilisé une approche de régression logistique sans réseaux de neurones, autrement dit un modèle plutôt simple. Les résultats sont décrits de façon un peu confuse avec chaque combinaison de facteurs nommée de M1 à M6. Il en ressort que de combiner la révision du contenu sur la base des connaissances cliniques et de la sélection par défaut avec machine learning était l’approche la plus efficace et a permis de diminuer le nombre de clics nécessaires à la rédaction d’une ordonnance d’environ 25%.

Je crois que l’objectif de l’article, soit de réviser l’ordonnance pré-rédigée de manière à réduire la charge de travail, est louable, mais que l’approche de diminution du nombre de clics va nécessairement mener à l’optimisation du modèle en fonction des pratiques les plus populaires, qui ne sont pas nécessairement les plus souhaitables. Par exemple, si les cliniciens ont tendance à cocher une analyse de laboratoire fréquemment, mais que ce n’est pas une pratique optimale (par exemple mesurer trop souvent les électrolytes), le modèle va optimiser pour sélectionner cette option par défaut pour réduire les clics alors qu’il est peut-être préférable cliniquement de ne pas faire cela.

Pour cette raison, je trouve que l’article est un peu décevant, et que la « cible » du modèle de machine learning devrait être un paramètre offrant un bénéfice clinique, plutôt qu’une mesure intermédiaire dont l’optimisation peut produire des effets cliniques imprévisibles.

 

Affiches présentées à l’Événement des pharmaciens 2017

Je n’ai malheureusement pas pu assister à l’Événement des pharmaciens 2017, congrès qui réunissait l’Association des Pharmaciens des Établissements de Santé (APES) du Québec et l’Ordre des Pharmaciens du Québec, entre autres. Cependant, les affiches présentées dans le cadre de ce congrès via l’APES ont été récemment publiées dans le Pharmactuel.

Je vous présente ici les données tirées des affiches traitant de l’utilisation de la technologie dans les pharmacies d’établissement de santé.

Temps requis pour la vérification par code-barre des services quotidiens

Un groupe du CISSS de Laval a comparé le temps requis pour la préparation des services quotidiens de médicaments par la méthode traditionnelle (feuilles de travail imprimées) par rapport à une méthode assistée par code-barre. Le temps de préparation requis pour l’assistant-technique préparateur et le nombre d’erreurs ont été collectées. 614 doses ont été évaluées par la méthode traditionnelle et 471 pour le code-barre, avec un temps moyen de 8,2 secondes par méthode traditionnelle contre 14,3 secondes par code-barres. Cependant, moins d’erreurs ont été constatées avec le code-barre. J’espère que cette étude sera publiée en texte complet car les résultats sont intéressants; j’imagine que l’effet observé est hautement dépendant du flux de travail (« workflow ») imposé par le système informatique, il serait intéressant de connaître les étapes limitantes et de réfléchir à la possibilité de les raccourcir. Il faut aussi noter que le temps calculé ne semble pas tenir en compte le temps de double vérification, soit par un autre assistant-technique dans le cadre d’une délégation, soit par un pharmacien, qui pourrait être réduit même si le temps de préparation augmente.

Sondage québécois sur l’utilisation du code-barre dans le circuit du médicament

La même équipe (j’imagine dans le cadre du même projet) a effectué un sondage québécois sur l’utilisation du code-barres dans le circuit du médicament, du 14 au 23 mars 2017. Tous les chefs de département de pharmacie listés à l’APES ont été contactés, soit 100 personnes. 35 ont répondu (35%). Seulement 5,7% des établissements n’ont aucune étape du circuit utilisant le code-barre, et 54% utilisent le code-barre pour la préparation des services quotidiens de médicaments. Ces données viennent complémenter les données québécoises du dernier sondage sur la pharmacie hospitalière datant de 2013-2014.

Chronométrage des activités du pharmacien dans une clinique externe d’oncologie

Cette étude ne ciblait pas la technologie à proprement parler, mais elle comporte des données quand même intéressantes dans ce contexte. Pendant 8 jours en mai 2016, les activités des pharmaciens à la clinique externe d’oncologie d’un hôpital du CHUM ont été chronométrées. Les données détaillées sont dans l’affiche, mais je trouve intéressant de souligner que 31,3% du temps était consacré à des activités non planifiées, comme des réponses aux appels et aux questions. Dans le contexte de la validation centralisée, une proportion significative du temps du pharmacien est justement consacrée à répondre à des questions et à des appels téléphoniques, et cette donnée pourrait servir de comparateur pour le temps passé à cette activité, en gardant en tête qu’il s’agit ici d’une clinique externe et non d’une pharmacie centrale.

Fiabilité du DSQ et du profil de pharmacie communautaire comparés à l’histoire médicamenteuse pour la prescription à l’urgence

Un groupe du CISSS Montérégie-Centre a évalué le nombre de divergences entre les listes extraites du DSQ, les profils de pharmacie communautaire et les histoires médicamenteuses faites en personne chez 250 patients admis ou en observation à l’urgence de l’hôpital Charles-Lemoyne. 1010 divergences ont été notées au DSQ et 714 au profil de pharmacie communautaire, cependant la potentiel de sévérité des divergences observées n’était pas significativement différent entre les deux méthodes. Il s’agit encore ici d’une étude pour laquelle le texte complet serait intéressant à obtenir dans le futur, car ces données viennent compléter d’autres déjà publiées sur le sujet.

Identification des combinaisons inhabituelles de médicaments

Cette étude de type preuve de concept visait à développer un algorithme de détection de combinaisons inhabituelles de médicaments, à partir d’une matrice de probabilité de combinaisons de médicaments dans les dossiers pharmacologiques historiques d’un établissement de santé. Il s’agit d’un exemple relativement simple de machine learning appliqué à la pharmacie. Une étude sur le machine learning pour la détection d’interactions médicamenteuses a d’ailleurs déjà été publiée, il s’agit ici de la première étude sur cette technique qui pourrait s’appliquer à la validation d’ordonnances, à ma connaissance. L’application pratique d’un tel algorithme serait d’indiquer au pharmacien la présence de combinaisons inhabituelles au dossier sur la base de ce qui a été validé dans le passé, ceci afin d’identifier rapidement des erreurs de saisie (par exemple des médicaments Look-Alike, Sound-Alike qui auraient été confondus à la prescription ou à la transcription).

La validation centralisée d’ordonnances en pharmacie d’établissement doit être repensée, en particulier dans le contexte de l’arrivée de la prescription électronique avec aide à la décision. Le machine learning est une avenue intéressante pour améliorer le processus, j’ai bien hâte de voir le développement de cette technique dans le futur.

Détection d’erreurs médicamenteuses par machine learning

Cette étude avait pour objectif de caractériser l’exactitude, la validité et l’utilité clinique d’alertes sur les médicaments établies par un logiciel utilisant le machine learning pour générer automatiquement des alertes à partir d’écarts par rapport à la norme. L’étude a été faite sur les données du Brigham and Women’s Hospital et du Massachusetts General Hospital aux États-Unis.

Le logiciel évalué était MedAware, un logiciel commercial. Ce logiciel utilise le machine learning pour créer 3 types d’alertes sur les médicaments:

  • Des données cliniques hors norme (par exemple prescription de contraceptif pour un enfant garçon).
  • Des données temporellement hors norme (par exemple une diminution des plaquettes chez un patient sous anticoagulant).
  • Un dosage hors norme (le dosage est à l’extrême de la distribution habituelle de dose pour ce médicament ou par rapport à l’histoire du patient).

Tous les patients ayant eu au moins une visite externe (les patients hospitalisés n’étaient pas inclus) entre le 1er janvier 2012 et le 31 décembre 2013 dans un de ces deux hôpitaux. Pour ces patients, les données rétrospectives de 5 ans ont été extraites. À noter, ces données étaient déjà encodées dans un dossier électronique de manière structurée, par exemple les données démographiques, les diagnostics, les listes de problèmes, les médicaments, les allergies, les signes vitaux et les résultats de laboratoires. Cependant, ces données comportaient bien sûr les failles habituelles des données cliniques, c’est-à-dire l’encodage de données en texte libre, dans les mauvais champs, de manière inconstante, etc.

Conformément aux principes du machine learning, les données ont été divisées en deux groupes, un groupe d’apprentissage et un groupe de test. Un échantillon de 300 dossiers a été utilisé pour une validation manuelle des alertes générées par le logiciel. Les paramètres évaluées étaient l’exactitude (l’alerte correspondait-elle réellement aux données encodées ?), la validité (l’alerte était elle adéquate compte tenu des données disponibles partout dans le dossier ?), et l’utilité clinique. Le codage de ces paramètres était effectué par consensus de l’équipe de recherche.

747 985 patients ont été inclus, ayant généré 15 692 alertes dans le groupe de 373 992 patients de test. 29,3% des alertes étaient liées aux données cliniques, 66,8% aux données temporelles et 3,9% au dosage. 23,8% des alertes n’étaient pas valides en raison de problèmes liées aux données, donc 76,2% des alertes étaient valides par rapport aux données encodées. De celles-ci, 56,2% étaient de valeur clinique élevée selon l’équipe de recherche et 18,8% de valeur moyenne.

Les auteurs soulignent dans la discussion la difficulté d’analyser un ensemble de données tiré d’un dossier électronique réel compte tenu de la grande variabilité dans la qualité, la disponibilité et l’encodage des données. La classification de la valeur clinique des alertes est aussi discutable car subjective. Néanmoins, le pourcentage d’alertes cliniquement utile est largement plus élevé que ce que l’on voit en pratique réelle, où la vaste majorité des alertes sont d’une utilité discutable. Il semble que le machine learning soit une avenue intéressante pour les systèmes d’aide à la décision du futur.