Prédiction d’ordonnances de tests et examens à l’urgence par machine learning

On voit deux tendances qui se dessinent dans l’utilisation du machine learning dans le contexte d’ordonnances: la prédiction d’ordonnances et l’analyse d’ordonnances. Je vous parlais la semaine dernière de détection d’ordonnances atypiques, aujourd’hui je vous parle d’un nouvel article sur la prédiction d’ordonnances paru en octobre 2019 dans JAMIA.

L’étude s’est déroulée sur 3 sites, soit deux « urgent care centers » (on imagine des cliniques sans rendez-vous pour soins urgents) et une urgence d’hôpital du VA américain situés à Boston. Il s’agit d’une étude rétrospective, c’est à dire que des données du passé ont été extraites pour entraîner des modèles et faire des simulations, mais aucune utilisation prospective du modèle en vie réelle n’a eu lieu. L’objectif de l’étude était de déterminer s’il était possible de prédire les ordonnances de tests de laboratoire et examens (pas les médicaments) qui seraient prescrits durant une visite à l’urgence à partir des données disponibles au triage. L’objectif ultime était d’offrir des soins plus efficaces en diminuant le temps perdu à attendre la première évaluation médicale pour la prescription de tests et examens.

Les données du 12 avril 2012 au 31 décembre 2016 concernant les visites à l’urgence ont été extraites du dossier clinique informatisé des unités de soins à l’étude. Les patients qui ont quitté avant d’avoir été vus ou qui sont décédés à l’urgence ont été exclus. Ces données ont été traitées pour les transformer en représentations compatibles avec des modèles de machine learning. Les détails du traitement sont présentés dans l’article, mais consistent essentiellement en une préparation des variables suivantes:

  • La cote de sévérité attribuée au triage.
  • L’âge et le sexe du patient.
  • Les ordonnances de tests et examens demandés à la dernière visite à l’urgence.
  • Les listes de problèmes et de diagnostics codifiées.
  • Le quart de travail (jour/soir/nuit) à l’arrivée du patient.
  • Les signes vitaux (tension artérielle, pouls, saturation, fréquence respiratoire, température).
  • La présence de douleur.
  • La plainte principale du patient (chief complaint) à l’arrivée, traitée par analyse du langage naturel de manière très intéressante.

4 modèles de machine learning relativement simples (classification par régression des moindres carrés partiels, machines à vecteurs de support, forêts aléatoires et perceptron multicouche) ont été entraînés chacun selon deux méthodes, soit par prédiction binaire (prédire chaque test indépendamment) ou par prédiction multilabel (prédire tous les tests à réaliser d’un seul coup) . La performance de chaque modèle a été évaluée avec le score F1 et l’aire sous la courbe ROC. Les auteurs ont aussi effectué une simulation des coûts supplémentaires des tests qui seraient effectués « en surplus » sur la base des prédictions du modèle et en contrepartie ont aussi fait une simulation de la variation de la durée de séjour tenant à la fois compte du temps épargné par des tests demandés plus rapidement, et des délais supplémentaires occasionnés par l’attente de résultats de certains tests plus longs.

Les données de 140 855 visites ont été incluses dans le jeu de données. 2179 items uniques ont été prescrits, cependant 29 items représentaient 81% de toutes les ordonnances. Les auteurs se sont donc limités à ceux-ci dans leurs prédictions. La population de patients était composée de plus de 90% d’hommes, avec une minorité de ceux-ci âgés de moins de 45 ans. Les 5 raisons de visites les plus fréquentes étaient la douleur, des problèmes « thoraciques » (douleur, respiratoires, pulmonaires), des difficultés respiratoires, des problèmes abdominaux, et spécifiquement des douleurs thoraciques. Les 5 tests de laboratoire les plus fréquents étaient la créatinine, le glucose, l’urée, les électrolytes et la formule sanguine.

Le meilleur modèle était le perceptron multicouche (un réseau de neurones simples) avec prédiction binaire, avec un score F1 de 0,53 et une aire sous la courbe ROC de 0,70. On constate cependant que tous les modèles ont une performance proche les uns des autres avec des intervalles de confiance qui se chevauchent. Les auteurs soulignent que les prédictions semblaient largement corrélées avec la fréquence des tests, ainsi les modèles tendaient à surprédire les tests fréquents et à sous-prédire les tests rares. La cote de sévérité a été utilisée comme comparateur non machine learning, c’est-à-dire que les auteurs ont vérifié quelles seraient les métriques de performance d’un modèle qui prescrirait tous les tests aux patients avec cote élevée et aucun test aux patients avec une cote faible. Évidemment, ce type de modèle offrait une aire sous la courbe ROC et un rappel élevés à 0,76 et 0,95 respectivement, cependant on voit bien que la performance clinique d’un tel modèle serait très mauvaise avec un taux de faux positifs passant de 17% avec le meilleur modèle à 44% avec le score de sévérité. La simulation a démontré une augmentation du coût médian des tests de 21$ à 45$ par visite, avec une baisse de la durée de 158 à 151 minutes.

Je trouve que l’approche est intéressante, cependant la performance clinique ne semble pas particulièrement intéressante, avec un bénéfice clinique modeste pour un coût à toutes fins pratiques doublé en tests. Je trouve que le choix du score de sévérité au triage comme comparateur non machine learning est un peu trop simple. En effet, il serait très surprenant qu’une mesure aussi simple offre une performance intéressante, comme on le voit bien. Puisque les auteurs nous disent que le modèle tendait à surprédire les tests fréquents, je trouve que comparer à un top n de tests les plus fréquents (peut-être stratifié selon une sévérité faible ou élevée) aurait un comparateur plus près de la pratique réelle.

Je retiens de cette étude qu’il y a un potentiel à utiliser le machine learning pour apprendre les patrons de prescription dans des contextes où la rapidité de prescription pourrait apporter un bénéfice. Cependant, on voit que l’approche évaluée dans cet article, bien qu’étoffée, ne semble pas être au point. Les auteurs discutent dans l’article de l’utilisation d’une telle approche pour constituer des order sets pour les raisons de visite à l’urgence fréquentes plutôt qu’une approche manuelle. Cela rejoint les travaux d’autres groupes de chercheurs et je crois qu’il y a là une avenue à explorer.

Lignes directrices de l’ASHP sur la prévention des erreurs médicamenteuses

L’ASHP a publié dans le numéro d’octobre de l’AJHP de nouvelles lignes directrices sur la prévention des erreurs médicamenteuses dans les hôpitaux. Je trouve cet article très important car il amalgame en un seul document beaucoup de pratiques décrites dans de multiples références de sources diverses. Je vous parlerai ici uniquement des aspects qui touchent la technologie mais le reste de l’article comporte des points majeurs dont je ne parlerai pas par souci de temps. Points bonus: l’article débute en citant le rapport To Err is Human: Building a Safer Health System de 1999.

L’article débute en énumérant des stratégies de prévention en vrac. Parmi celles comportant des aspects de technologie on note:

  • L’utilisation de pompes intelligentes
  • La prescription électronique avec aide à la décision
  • L’utilisation du code-barres lors de la préparation, la dispensation et l’administration de médicaments

Ces trois points sont bien simples à nommer ainsi mais chacun comporte son lot de difficultés et de complications, en particulier pour la prescription électronique, et fait l’objet de nombreuses publications et directives d’organismes comme l’ISMP.

Les auteurs mentionnent spécifiquement des stratégies pour réduire les erreurs liés aux médicaments aux noms similaires (Look-alike, sound-alike – LASA):

    L’article détaille ensuite les mesures à prendre à chaque étape du circuit du médicament pour prévenir les erreurs.

    Étapes de sélection et d’approvisionnement

    Un élément majeur à cette étape du circuit du médicament est l’intégration des médicaments choisis et achetés à la technologie en place dans l’établissement. Les choix de formes pharmaceutiques et de concentrations disponibles devraient prendre en considération les possibilités des logiciels qui permettront de gérer, prescrire et administrer ces médicaments.

    Les éléments à considérer incluent

    • Les choix de voie d’administration possibles
    • La nomenclature du médicament et la nécessité de distinction avec d’autres, par exemple avec une écriture TALLman
    • Les interactions médicamenteuses significatives à programmer et tester
    • Les autres alertes pertinentes du médicament (tests de laboratoire, restrictions de prescription, etc.)
    • L’intégration des recommandations de dose à tous les systèmes ainsi qu’aux pompes intelligentes
    • Le besoin d’une ordonnance pré-rédigée
    • La disponibilité dans les cabinets et les alertes spécifiques à la dispensation à partir de cabinets

    On souligne aussi l’importance de la nomenclature du médicament. Celle-ci devrait être standardisée à travers l’ensemble du circuit du médicament, notamment dans le dossiers électronique, le systèmes de pharmacie, les pompes, les cabinets, et prendre en compte dans chaque système la possibilité de confusion avec d’autres médicaments. Le nom générique devrait être favorisé (je commenterais que parfois le nom commercial est nécessaire car le nom générique est incompréhensible pour les professionnels non pharmaciens, par exemple pour des produits qui ne comportent pas de « vrais médicaments » comme les onguents opthalmiques, les gels pour lésions cutanées, les pansements, les produits hydratants en général…). On souligne aussi l’importance de ne pas abrévier le nom d’un médicament, mais ici la technologie est parfois une limite, combien de produits ont une limite de caractères tellement basse que le nom générique du médicament n’entre même pas ?

    Une section de l’article détaille spécifiquement les recommandations pour la dispensation à partir de cabinets, notamment la configuration de la dispensation à partir du profil pharmacologique ou hors profil.

    Étapes de transcription et vérification

    L’article met une emphase sur la vérification des ordonnances de médicaments par un pharmacien, et insiste sur l’importance de ne pas « échapper » les ordonnances rédigées lorsque la pharmacie est fermée. Il faut aussi qu’il y ait une procédure en place pour que les ordonnances rédigées lorsque la pharmacie est fermée puissent être revues si besoin, par exemple avec un pharmacien de garde, un service de télépharmacie, et avec une formation adéquate du personnel sur place durant la nuit pour identifier les situations non conformes ou demandant davantage de vérifications

    Étapes de dispensation et d’administration

    La validation des médicaments peut être assistée par de la technologie, notamment par les code-barres. En particulier, les médicaments qui sont reconditionnées doivent aussi comporter un code-barres. Une procédure doit donc être mise en place pour la génération de ce code-barres et pour encadrer son utilisation.

    Lorsque les cabines sont utilisés, les fonctions de sécurité offertes par le cabinet doivent être connues et revues pour que les meilleures politiques soient mises en place et diminuer le besoin de contournements dans la pratique clinique. De plus, des audits d’utilisation doivent avoir lieu pour identifier les situations problématiques.

    Révision d’ordonnances pré-rédigées assistée par machine learning

    Un article paru au début du mois dans le JAMIA a attiré mon attention. Le titre laisse entendre que les auteurs ont élaboré un processus de révision d’ordonnances pré-rédigées assisté par machine learning. Ma propre expérience m’a montré que ce processus est généralement long et complexe, même pour des ordonnances pré-rédigées apparemment simples. J’étais donc bien intéressé à voir ce que ces chercheurs ont fait. J’ai été un peu déçu…

    L’objectif de l’étude est vaguement décrit. Les auteurs ont comparé six approches de révision d’une seule ordonnance pré-rédigée dans leur institution. L’ordonnance en question est celle de demande d’analyses de laboratoire le matin, un exemple très simple. Les approches comparées étaient individuellement:

    • Par les connaissances cliniques
    • Par les statistiques populationnelles
    • Par machine learning

    Et les auteurs arrivent à 6 méthodes en combinant celles-ci. La variable dépendante était la charge de travail définie par le nombre de clics de souris nécessaires lors de la rédaction de l’ordonnance (une mesure assez discutable). Les données sur l’utilisation de cette ordonnance ont été extraites de septembre 2014 à octobre 2015 du dossier électronique de l’institution (plus ou moins décrite, mais on comprend de l’affiliation des auteurs que c’est un hôpital situé à New York), et incluaient 998 946 instances d’ordonnance pour 37 924 patients, ainsi que 3561 ordonnances d’analyses de laboratoire additionnelles placées dans un intervalle de 10 minutes avant ou après l’ordonnance pré-rédigée.

    L’apport du machine learning dans le processus de révision était essentiellement de déterminer si chaque analyse de laboratoire devait être sélectionnée par défaut ou non dans l’ordonnance révisée, ce pourquoi je disais être déçu. En effet, cette technique ne semble pas avoir été appliquée à la sélection du contenu de l’ordonnance.

    L’approche de machine learning semble valide mais est peu décrite, je crois comprendre que les auteurs ont utilisé une approche de régression logistique sans réseaux de neurones, autrement dit un modèle plutôt simple. Les résultats sont décrits de façon un peu confuse avec chaque combinaison de facteurs nommée de M1 à M6. Il en ressort que de combiner la révision du contenu sur la base des connaissances cliniques et de la sélection par défaut avec machine learning était l’approche la plus efficace et a permis de diminuer le nombre de clics nécessaires à la rédaction d’une ordonnance d’environ 25%.

    Je crois que l’objectif de l’article, soit de réviser l’ordonnance pré-rédigée de manière à réduire la charge de travail, est louable, mais que l’approche de diminution du nombre de clics va nécessairement mener à l’optimisation du modèle en fonction des pratiques les plus populaires, qui ne sont pas nécessairement les plus souhaitables. Par exemple, si les cliniciens ont tendance à cocher une analyse de laboratoire fréquemment, mais que ce n’est pas une pratique optimale (par exemple mesurer trop souvent les électrolytes), le modèle va optimiser pour sélectionner cette option par défaut pour réduire les clics alors qu’il est peut-être préférable cliniquement de ne pas faire cela.

    Pour cette raison, je trouve que l’article est un peu décevant, et que la « cible » du modèle de machine learning devrait être un paramètre offrant un bénéfice clinique, plutôt qu’une mesure intermédiaire dont l’optimisation peut produire des effets cliniques imprévisibles.