Prédiction d’ordonnances de tests et examens à l’urgence par machine learning

On voit deux tendances qui se dessinent dans l’utilisation du machine learning dans le contexte d’ordonnances: la prédiction d’ordonnances et l’analyse d’ordonnances. Je vous parlais la semaine dernière de détection d’ordonnances atypiques, aujourd’hui je vous parle d’un nouvel article sur la prédiction d’ordonnances paru en octobre 2019 dans JAMIA.

L’étude s’est déroulée sur 3 sites, soit deux « urgent care centers » (on imagine des cliniques sans rendez-vous pour soins urgents) et une urgence d’hôpital du VA américain situés à Boston. Il s’agit d’une étude rétrospective, c’est à dire que des données du passé ont été extraites pour entraîner des modèles et faire des simulations, mais aucune utilisation prospective du modèle en vie réelle n’a eu lieu. L’objectif de l’étude était de déterminer s’il était possible de prédire les ordonnances de tests de laboratoire et examens (pas les médicaments) qui seraient prescrits durant une visite à l’urgence à partir des données disponibles au triage. L’objectif ultime était d’offrir des soins plus efficaces en diminuant le temps perdu à attendre la première évaluation médicale pour la prescription de tests et examens.

Les données du 12 avril 2012 au 31 décembre 2016 concernant les visites à l’urgence ont été extraites du dossier clinique informatisé des unités de soins à l’étude. Les patients qui ont quitté avant d’avoir été vus ou qui sont décédés à l’urgence ont été exclus. Ces données ont été traitées pour les transformer en représentations compatibles avec des modèles de machine learning. Les détails du traitement sont présentés dans l’article, mais consistent essentiellement en une préparation des variables suivantes:

  • La cote de sévérité attribuée au triage.
  • L’âge et le sexe du patient.
  • Les ordonnances de tests et examens demandés à la dernière visite à l’urgence.
  • Les listes de problèmes et de diagnostics codifiées.
  • Le quart de travail (jour/soir/nuit) à l’arrivée du patient.
  • Les signes vitaux (tension artérielle, pouls, saturation, fréquence respiratoire, température).
  • La présence de douleur.
  • La plainte principale du patient (chief complaint) à l’arrivée, traitée par analyse du langage naturel de manière très intéressante.

4 modèles de machine learning relativement simples (classification par régression des moindres carrés partiels, machines à vecteurs de support, forêts aléatoires et perceptron multicouche) ont été entraînés chacun selon deux méthodes, soit par prédiction binaire (prédire chaque test indépendamment) ou par prédiction multilabel (prédire tous les tests à réaliser d’un seul coup) . La performance de chaque modèle a été évaluée avec le score F1 et l’aire sous la courbe ROC. Les auteurs ont aussi effectué une simulation des coûts supplémentaires des tests qui seraient effectués « en surplus » sur la base des prédictions du modèle et en contrepartie ont aussi fait une simulation de la variation de la durée de séjour tenant à la fois compte du temps épargné par des tests demandés plus rapidement, et des délais supplémentaires occasionnés par l’attente de résultats de certains tests plus longs.

Les données de 140 855 visites ont été incluses dans le jeu de données. 2179 items uniques ont été prescrits, cependant 29 items représentaient 81% de toutes les ordonnances. Les auteurs se sont donc limités à ceux-ci dans leurs prédictions. La population de patients était composée de plus de 90% d’hommes, avec une minorité de ceux-ci âgés de moins de 45 ans. Les 5 raisons de visites les plus fréquentes étaient la douleur, des problèmes « thoraciques » (douleur, respiratoires, pulmonaires), des difficultés respiratoires, des problèmes abdominaux, et spécifiquement des douleurs thoraciques. Les 5 tests de laboratoire les plus fréquents étaient la créatinine, le glucose, l’urée, les électrolytes et la formule sanguine.

Le meilleur modèle était le perceptron multicouche (un réseau de neurones simples) avec prédiction binaire, avec un score F1 de 0,53 et une aire sous la courbe ROC de 0,70. On constate cependant que tous les modèles ont une performance proche les uns des autres avec des intervalles de confiance qui se chevauchent. Les auteurs soulignent que les prédictions semblaient largement corrélées avec la fréquence des tests, ainsi les modèles tendaient à surprédire les tests fréquents et à sous-prédire les tests rares. La cote de sévérité a été utilisée comme comparateur non machine learning, c’est-à-dire que les auteurs ont vérifié quelles seraient les métriques de performance d’un modèle qui prescrirait tous les tests aux patients avec cote élevée et aucun test aux patients avec une cote faible. Évidemment, ce type de modèle offrait une aire sous la courbe ROC et un rappel élevés à 0,76 et 0,95 respectivement, cependant on voit bien que la performance clinique d’un tel modèle serait très mauvaise avec un taux de faux positifs passant de 17% avec le meilleur modèle à 44% avec le score de sévérité. La simulation a démontré une augmentation du coût médian des tests de 21$ à 45$ par visite, avec une baisse de la durée de 158 à 151 minutes.

Je trouve que l’approche est intéressante, cependant la performance clinique ne semble pas particulièrement intéressante, avec un bénéfice clinique modeste pour un coût à toutes fins pratiques doublé en tests. Je trouve que le choix du score de sévérité au triage comme comparateur non machine learning est un peu trop simple. En effet, il serait très surprenant qu’une mesure aussi simple offre une performance intéressante, comme on le voit bien. Puisque les auteurs nous disent que le modèle tendait à surprédire les tests fréquents, je trouve que comparer à un top n de tests les plus fréquents (peut-être stratifié selon une sévérité faible ou élevée) aurait un comparateur plus près de la pratique réelle.

Je retiens de cette étude qu’il y a un potentiel à utiliser le machine learning pour apprendre les patrons de prescription dans des contextes où la rapidité de prescription pourrait apporter un bénéfice. Cependant, on voit que l’approche évaluée dans cet article, bien qu’étoffée, ne semble pas être au point. Les auteurs discutent dans l’article de l’utilisation d’une telle approche pour constituer des order sets pour les raisons de visite à l’urgence fréquentes plutôt qu’une approche manuelle. Cela rejoint les travaux d’autres groupes de chercheurs et je crois qu’il y a là une avenue à explorer.

Laisser un commentaire

Entrer les renseignements ci-dessous ou cliquer sur une icône pour ouvrir une session :

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.