Prédiction d’ordonnances de tests et examens à l’urgence par machine learning

On voit deux tendances qui se dessinent dans l’utilisation du machine learning dans le contexte d’ordonnances: la prédiction d’ordonnances et l’analyse d’ordonnances. Je vous parlais la semaine dernière de détection d’ordonnances atypiques, aujourd’hui je vous parle d’un nouvel article sur la prédiction d’ordonnances paru en octobre 2019 dans JAMIA.

L’étude s’est déroulée sur 3 sites, soit deux « urgent care centers » (on imagine des cliniques sans rendez-vous pour soins urgents) et une urgence d’hôpital du VA américain situés à Boston. Il s’agit d’une étude rétrospective, c’est à dire que des données du passé ont été extraites pour entraîner des modèles et faire des simulations, mais aucune utilisation prospective du modèle en vie réelle n’a eu lieu. L’objectif de l’étude était de déterminer s’il était possible de prédire les ordonnances de tests de laboratoire et examens (pas les médicaments) qui seraient prescrits durant une visite à l’urgence à partir des données disponibles au triage. L’objectif ultime était d’offrir des soins plus efficaces en diminuant le temps perdu à attendre la première évaluation médicale pour la prescription de tests et examens.

Les données du 12 avril 2012 au 31 décembre 2016 concernant les visites à l’urgence ont été extraites du dossier clinique informatisé des unités de soins à l’étude. Les patients qui ont quitté avant d’avoir été vus ou qui sont décédés à l’urgence ont été exclus. Ces données ont été traitées pour les transformer en représentations compatibles avec des modèles de machine learning. Les détails du traitement sont présentés dans l’article, mais consistent essentiellement en une préparation des variables suivantes:

  • La cote de sévérité attribuée au triage.
  • L’âge et le sexe du patient.
  • Les ordonnances de tests et examens demandés à la dernière visite à l’urgence.
  • Les listes de problèmes et de diagnostics codifiées.
  • Le quart de travail (jour/soir/nuit) à l’arrivée du patient.
  • Les signes vitaux (tension artérielle, pouls, saturation, fréquence respiratoire, température).
  • La présence de douleur.
  • La plainte principale du patient (chief complaint) à l’arrivée, traitée par analyse du langage naturel de manière très intéressante.

4 modèles de machine learning relativement simples (classification par régression des moindres carrés partiels, machines à vecteurs de support, forêts aléatoires et perceptron multicouche) ont été entraînés chacun selon deux méthodes, soit par prédiction binaire (prédire chaque test indépendamment) ou par prédiction multilabel (prédire tous les tests à réaliser d’un seul coup) . La performance de chaque modèle a été évaluée avec le score F1 et l’aire sous la courbe ROC. Les auteurs ont aussi effectué une simulation des coûts supplémentaires des tests qui seraient effectués « en surplus » sur la base des prédictions du modèle et en contrepartie ont aussi fait une simulation de la variation de la durée de séjour tenant à la fois compte du temps épargné par des tests demandés plus rapidement, et des délais supplémentaires occasionnés par l’attente de résultats de certains tests plus longs.

Les données de 140 855 visites ont été incluses dans le jeu de données. 2179 items uniques ont été prescrits, cependant 29 items représentaient 81% de toutes les ordonnances. Les auteurs se sont donc limités à ceux-ci dans leurs prédictions. La population de patients était composée de plus de 90% d’hommes, avec une minorité de ceux-ci âgés de moins de 45 ans. Les 5 raisons de visites les plus fréquentes étaient la douleur, des problèmes « thoraciques » (douleur, respiratoires, pulmonaires), des difficultés respiratoires, des problèmes abdominaux, et spécifiquement des douleurs thoraciques. Les 5 tests de laboratoire les plus fréquents étaient la créatinine, le glucose, l’urée, les électrolytes et la formule sanguine.

Le meilleur modèle était le perceptron multicouche (un réseau de neurones simples) avec prédiction binaire, avec un score F1 de 0,53 et une aire sous la courbe ROC de 0,70. On constate cependant que tous les modèles ont une performance proche les uns des autres avec des intervalles de confiance qui se chevauchent. Les auteurs soulignent que les prédictions semblaient largement corrélées avec la fréquence des tests, ainsi les modèles tendaient à surprédire les tests fréquents et à sous-prédire les tests rares. La cote de sévérité a été utilisée comme comparateur non machine learning, c’est-à-dire que les auteurs ont vérifié quelles seraient les métriques de performance d’un modèle qui prescrirait tous les tests aux patients avec cote élevée et aucun test aux patients avec une cote faible. Évidemment, ce type de modèle offrait une aire sous la courbe ROC et un rappel élevés à 0,76 et 0,95 respectivement, cependant on voit bien que la performance clinique d’un tel modèle serait très mauvaise avec un taux de faux positifs passant de 17% avec le meilleur modèle à 44% avec le score de sévérité. La simulation a démontré une augmentation du coût médian des tests de 21$ à 45$ par visite, avec une baisse de la durée de 158 à 151 minutes.

Je trouve que l’approche est intéressante, cependant la performance clinique ne semble pas particulièrement intéressante, avec un bénéfice clinique modeste pour un coût à toutes fins pratiques doublé en tests. Je trouve que le choix du score de sévérité au triage comme comparateur non machine learning est un peu trop simple. En effet, il serait très surprenant qu’une mesure aussi simple offre une performance intéressante, comme on le voit bien. Puisque les auteurs nous disent que le modèle tendait à surprédire les tests fréquents, je trouve que comparer à un top n de tests les plus fréquents (peut-être stratifié selon une sévérité faible ou élevée) aurait un comparateur plus près de la pratique réelle.

Je retiens de cette étude qu’il y a un potentiel à utiliser le machine learning pour apprendre les patrons de prescription dans des contextes où la rapidité de prescription pourrait apporter un bénéfice. Cependant, on voit que l’approche évaluée dans cet article, bien qu’étoffée, ne semble pas être au point. Les auteurs discutent dans l’article de l’utilisation d’une telle approche pour constituer des order sets pour les raisons de visite à l’urgence fréquentes plutôt qu’une approche manuelle. Cela rejoint les travaux d’autres groupes de chercheurs et je crois qu’il y a là une avenue à explorer.

Étude sur l’accès aux données de pharmacie communautaire dans les hôpitaux en France

Cette étude portait sur l’effet de donner accès aux médecins des hôpitaux français à l’équivalent du DSQ dans ce pays. Ce dossier électronique comprend toutes les dispensations de médicaments par les pharmacies communautaires, incluant les médicaments sans ordonnances, dans les 4 derniers mois. L’objectif de l’étude était de quantifier l’impact de l’accès à ces données en vérifiant la prise en charge avec ou sans l’accès.

Un accès a été fourni aux médecins des départements d’urgence, d’anesthésie et de gériatrie dans 58 hôpitaux. Un échantillon de 6 départements dans 6 hôpitaux, soit 2 par spécialité, a été constitué. L’étude a été menée de novembre 2014 à février 2016 et ciblait tous les patients vus sur les départements inclus. L’étude consistait à demander au médecin admettant le patient de faire une entrevue habituelle avec le patient et d’obtenir l’information sur les médicaments de la manière habituelle. Ensuite, le médecin remplissait un questionnaire sur le patient et la prise en charge prévue. Le médecin devait par la suite accéder si possible au dossier pharmaceutique, vérifier l’information, et compléter le questionnaire pour documenter si ce dossier contenait de l’information non accessible ailleurs et si cette information avait changé la prise en charge.

511 questionnaires ont été collectés durant l’étude. 504 questionnaires étaient remplis adéquatement et on pu être analysés. Le taux de complétion du questionnaire était généralement faible et variable, allant de 1,1% à 30% des patients éligibles dans chaque département. 72% des patients inclus ont été vus en anesthésie, 17% en gériatrie et 11% à l’urgence.

316 patients (63%) avaient un dossier accessible, et 296 contenaient de l’information. 171 sur les 316 (54%) contenaient de l’information non accessible ailleurs ou contradictoire par rapport à l’histoire initialement obtenue. Le type d’information le plus fréquent était un médicament non déclaré ailleurs (64%), suivi de la prise d’un médicament sans ordonnance (21%), suivi d’informations sur la dose ou l’observance. La prise en charge a été changée pour 72 patients, le plus souvent en gériatrie (43%).

Cette étude est intéressante car elle offre une perspective très différente par rapport à l’utilisation que l’on connaît du DSQ au Québec. Je suis surpris par la faible inclusion des patients à l’urgence, alors que c’est un endroit où l’information du DSQ est largement utilisée ici. Cependant, il n’est pas bien décrit dans l’étude s’il est possible que les médecins aient accédé à l’information du dossier électronique sans remplir le questionnaire. Les auteurs commentent que le faible taux de complétion du questionnaire pourrait avoir mené à un biais de sélection.

Erreurs de poids à l’urgence

Cette étude a évalué l’incidence d’erreurs de poids entrés dans le dossier électronique de patients ayant visité l’urgence de trois hôpitaux affiliés (deux généraux / adultes et un pédiatrique) situés à Hawaii. Tous les patients de moins de 5 ans ayant visité l’urgence durant une période de référence variable selon le centre (allant de 2009-2010 à 2012-2013) ont été inclus. Les poids enregistrés ont été extraits, et les poids plus petits que le 3è percentile, ou plus grands que le 97è percentile, ont été considérés comme des erreurs potentielles. Ceux-ci ont été révisés, si les autres poids documentés dans le dossier étaient similaires, le poids n’était pas considéré une erreur. De la même manière, si l’information était jugée insuffisante pour déterminer s’il s’agissait d’une erreur, la donnée était placée dans une catégorie à part. Enfin, les ordonnances de médicaments associées à ces poids ont été revues pour déterminer l’incidence d’erreurs.

79 000 visites à l’urgence ont été incluses. La proportion de poids erronés était de 0,46% dans l’hôpital pédiatrie et 0,30 et 1,1% dans les deux hôpitaux généraux, ces proportions étant statistiquement différentes (p<0,001). Les taux de poids extrêmes ne pouvant être classés comme erreur étaient aussi statistiquement différents entre les groupes ,avec 0,69% dans l’hôpital pédiatrique et 0,029 et 1,1% dans les deux hôpitaux généraux (p<0,001). À noter que les taux d’erreurs de poids comparés entre les deux hôpitaux généraux regroupés et l’hôpital pédiatrique n’étaient pas différents (0,46% contre 0,49%, p=0,54).

Les erreurs de poids ont été corrigées au dossier avant la prescription de médicament dans 17% des cas dans l’hôpital pédiatrique, contre 8% dans les deux hôpitaux généraux combinés. Ils n’ont pas été corrigés et ont mené à une erreur de prescription dans 34% des cas dans l’hôpital pédiatrique, contre 33% des cas dans les hôpitaux généraux combinés. Dans d’autres cas, aucun médicament n’a été prescrit et l’erreur n’a pas été corrigée.

Les médicaments les plus affectés par les erreurs de prescription étaient, dans l’ordre, l’acétaminophène, l’ibuprofène, l’ondansétron, la diphenhydramine, l’amoxicilline, et la prednisolone. Ces médicaments reflètent selon moi davantage le volume de prescription à l’urgence pour ces médicaments plutôt qu’une susceptibilité particulière aux erreurs.

Les auteurs soulignent des causes possibles des erreurs de poids: l’utilisation de balances affichant un poids à la fois en livres et en kilogrammes, la saisie de données dans le mauvais champ (par exemple entrer la température à la place du poids) et les erreurs de frappe à la saisie des données. Je souligne que les hôpitaux à l’étude utilisaient des dossiers électroniques. Dans ma pratique avec les dossiers papiers, d’autres causes d’erreurs que j’ai constatées sont l’inscription du poids dans le mauvais dossier, et les erreurs de communication verbale de poids (par exemple regarder dans le mauvais dossier et transmettre verbalement le poids d’un autre patient).

Les auteurs suggèrent des mesures informatiques pour limiter ces erreurs, notamment l’ajout d’une limite contournable lorsque le poids sort d’une plage de percentiles selon l’âge, ou l’affichage d’une courbe de croissance avec la valeur entrée. Ces idées sont intéressantes, mais comme les auteurs le soulignent, elles doivent être prises en compte dans le contexte de la désensibilisation aux alertes.