Utiliser le machine learning pour détecter les erreurs de prescription

Au début de 2017, je vous parlais d’un article décrivant un logiciel commercial de détection d’anomalies de prescription par machine learning. Cet article démontrait que plus de 75% des alertes générées par le système étaient valides par rapport aux données disponibles dans le dossier électronique de l’hôpital à l’étude et que plus de la moitié était de valeur clinique élevée.

Le même logiciel a fait l’objet d’une nouvelle étude parue en août 2019. Cette nouvelle étude a été réalisée dans un hôpital israélien de soins tertiaires de 1800 lits, mais une seule unité de médecine interne de 38 lits a été incluse. Les données ont été collectées du 1er juillet 2016 au 30 avril 2018.

Le logiciel intègre les données du dossier clinique informatisé de l’hôpital ainsi que les motifs (patterns) présents dans les pratiques de prescription du centre pour générer un modèle local, qui ensuite sert à l’analyse prospective de nouvelles ordonnances. Une rétroaction est donnée soit en temps réel lors de la prescription, soit en différé.

Durant l’étude, 4533 admissions ont eu lieu, générant 78 017 ordonnances. 315 alertes ont été générées pour 282 ordonnances, ce que les auteurs qualifient de faible et m’apparaît même extrêmement faible pour une système d’aide à la décision, quand on connaît le nombre très élevé d’alertes habituellement générées par de tels systèmes. Les auteurs ont comparé ces chiffres à ceux d’un autre système d’aide à la décision en place dans le même centre. On constate que 37% des ordonnances génèrent une alerte dans le système habituel comparativement à 0,4% dans ce nouveau logiciel.

Les alertes générées en temps réel étaient à 47% des alertes en lien avec des analyses de laboratoire, avec la sous-catégorie la plus fréquente qui était une alerte sur l’usage de sédatifs chez les patients avec hypercapnie. 42% des alertes en temps réel étaient liées au dosage. Les alertes asynchrones étaient générées lorsque la condition d’un patient changeait. La catégorie la plus fréquence de ces alertes était aussi l’usage de sédatifs chez les patients avec hypercapnie, suivie de près par l’usage de chronotropes négatifs chez les patients avec bradycardie.

Les auteurs rapportent la validité et l’utilité clinique des alertes. Je n’aime pas la méthode avec laquelle ces chiffres ont été déterminés: les auteurs ont pris la peine de vérifier la réponse des cliniciens aux alertes, mais la détermination finale de si une alerte était valide ou utile revenait à une seule personne, un « champion clinique » auteur de l’étude. J’aurais aimé voir une analyse externe par plusieurs personnes, possiblement même à l’aveugle de la réponse des cliniciens. De façon assez peu surprenante, 85% des alertes ont été jugées cliniquement valides et 80% cliniquement utile.

Les chiffres sur la réponse des cliniciens aux alertes sont plus intéressants. Environ la moitié des alertes ont généré un changement sur l’ordonnance dans un court laps de temps, ce qui est impressionnant considérant que la vaste majorité des alertes des systèmes d’aide à la décision classique sont ignorées. Les alertes les plus fréquemment associées à un changement étaient celles en lien avec le dosage, indiquant quand même que les alertes les plus fréquentes, sur l’hypercapnie et l’usage de sédatifs, n’étaient peut-être pas si cliniquement utiles.

Globalement, il s’agit d’un article très intéressant offrant des données sur l’impact clinique d’un logiciel d’aide à la prescription utilisant le machine learning. Les données présentées sont encourageantes, les alertes générées semblent être beaucoup plus utiles et pertinentes que celles générées par un système classique basé sur des règles programmées.

Cependant, le site web du produit et les publications des auteurs, du moins celles que je peux retrouver, n’offrent aucun détail technique sur le fonctionnement du logiciel, sur des forces et ses limites, ainsi que sur ses biais. 5 jours avant la publication de cet article, une autre publication du même journal appelait à la transparence. Je cite ici les deux phrases finales de l’abstract de cet article:

Hiding algorithms for commercial exploitation is unethical, because there is no possibility to assess whether algorithms work as advertised or to monitor when and how algorithms are updated. Journals and funders should demand maximal transparency for publications on predictive algorithms, and clinical guidelines should only recommend publicly available algorithms.

Appliquer l’intelligence artificielle à la pharmacie d’établissement de santé

Vous avez pu constater dans un épisode du podcast Trait Pharmacien de l’APES que je m’intéresse aux applications de l’intelligence artificielle (IA) à la pharmacie d’établissement de santé et que je participe à des projets de recherche sur ce sujet. Malheureusement, malgré l’explosion de publications sur l’IA en soins de santé et en médecine, assez peu de publications examinent spécifiquement les applications en pharmacie ou mentionnent les impacts pour les pharmaciens. J’ai été très heureux de voir dans le numéro de mai de l’AJHP un article parlant de ce sujet. Je crois donc que le moment est opportun pour présenter ici une revue informelle des publications que je trouve pertinentes pour les pharmaciens.

D’abord: garder la tête froide

Avant toute chose, je crois qu’il est important de parler de l’effervescence qui entoure l’IA, et en particulier dans le milieu de la santé. Je crois qu’en tant que professionnels de la santé visant une pratique fondée sur les données probantes, il faut garder une approche scientifique et factuelle, et surtout ne pas se laisser influencer par l’effervescence, le hype qui tourne autour de la science de l’IA. Dans le contexte où l’apprentissage automatique (machine learning) (ML) et l’IA sont des sujets assez complexes, que c’est un domaine de recherche qui fait beaucoup parler à la fois dans la communauté scientifique et chez le grand public, et que beaucoup d’argent coule vers des initiatives en IA, il peut être facile de gonfler des promesses de résultats ou de tomber dans le mauvais réflexe qu’utiliser l’IA est nécessairement une bonne chose. Je vois souvent des logiciels ou des produits qui se vantent « d’utiliser l’IA » sans décrire clairement de quelle manière et sans présenter des données probantes sur l’apport de cette technologie au produit par rapport à d’autres approches. Je crois que ce genre d’affirmation devrait être évaluée avec scepticisme.

Un article de perspective du NEJM en 2017 devrait être lu par ceux qui s’intéressent à ce sujet. Je crois que le point crucial à retenir de cet article est cette phrase, dont le sens est très clair:

[…] even a perfectly calibrated prediction model may not translate into better clinical care.

L’approche générale à l’IA en soins de santé

Un bon premier article à lire pour développer ses connaissances est paru en 2019 dans le NEJM. Celui-ci présente des principes très généraux, sans aller dans les détails, et donne des exemples d’applications potentielles.

Je ne discuterai pas ici d’applications générales aux soins de santé, ni d’applications propres à des spécialités médicales, en particulier l’imagerie, puisque de nombreux articles de revue s’y consacrent, mais sachez que ces exemples sont nombreux.

L’IA appliquée à la pharmacie: analyse et prédiction d’ordonnances

En ce qui a trait aux publications applicables à la pharmacie, très peu de littérature présente des données concrètes et pas seulement des idées. La plupart des données publiées visent l’analyse et la prédiction d’ordonnances.

Un groupe se concentre sur le lien entre un médicament et sa posologie. Leur publication de 2014 ciblait un nombre limité de médicaments, cependant un article plus récent de leur part démontre une généralisation de leur technique. Ils utilisent les données de fréquence de chaque posologie (dose, voie et fréquence) prescrite pour un médicament afin de déterminer si une ordonnance est habituelle ou non. Ça me semble très intéressant, un logiciel développé à partir de cette approche pourrait donner à un pharmacien une rétroaction sur la posologie prescrite pour un médicament. Cette approche n’offre cependant pas de rétroaction sur le médicament lui-même en fonction du contexte du patient.

À propos de ce dernier point, les publications sur l’analyse du médicament par rapport à son contexte remontent jusqu’à 2008, où un projet de maîtrise au MIT cherchait à prédire la séquence d’ordonnances dans le contexte d’un patient afin d’offrir des suggestions lors de la prescription électronique. Cette publication est impressionnante. Sans réseaux de neurones et sans apprentissage profond, avec de l’analyse de motif séquentiel, ils ont réussi à prédire le prochain médicament (au niveau du nom générique seulement, cependant) avec 70,2% de succès en 20 essais.

Encore dans l’analyse de motif séquentiel, une autre étude a réussi à prédire le prochain médicament prescrit pour le diabète, donc parmi un nombre limité de possibilités avec environ 64% de succès en 3 essais.

Un groupe a utilisé une technique de traitement du langage, le Latent Dirichlet Allocation, permettant de modéliser des sujets de textes, pour analyser des séquences d’ordonnances. Ils ne se sont pas intéressés seulement aux médicaments mais ont analysé toutes les ordonnances. Ils ont démontré que cette technique permet de mieux prédire les ordonnances des 24 heures suivant l’admission, avec une aire sous la courbe ROC de 0.90, que simplement la déduction à partir des ordonnances pré-rédigées utilisées à l’admission, avec une aire sous la courbe ROC de 0.81.

Le même groupe a publié un article démontrant certaines limites aux données collectées dans le cadre de la pratique clinique: puisque celles-ci évoluent, on ne peut pas remontrer trop loin dans le passé, sinon le modèle tente d’apprendre à partir de pratiques qui ne sont plus idéales, et ceci fait baisser la qualité des prédictions. Ceci limite le volume de données disponibles lorsqu’on extrait des données de systèmes cliniques à des fins de ML.

Enfin, une autre publication a évalué un logiciel commercial offrant de l’aide à la décision appuyée sur du ML. J’ai déjà parlé de cet article dans un billet en 2017.

Vient maintenant le moment de parler d’un projet sur lequel je travaille directement visant également la prédiction d’ordonnances, mais cette fois au niveau du produit précis, et non simplement au niveau du générique, avec une approche qui combine l’analyse du langage par réseau de neurones (la technique word2vec) avec l’apprentissage profond. J’ai présenté nos premiers résultats à la conférence Machine Learning for Healthcare qui avait lieu à Ann Arbor en août 2019. Nous soumettrons un premier manuscrit pour publication sous peu.

Enfin, comme mentionné dans le podcast Trait Pharmacien, l’identification de comprimés (et j’imagine que ce serait applicable à bien des formes pharmaceutiques) en utilisant un réseau de neurones à convolutions démontre une efficacité prometteuse, bien que je n’ai pas connaissance de données publiées sur une application pratique de cette technologie en pharmacie.

L’IA dans les sujets connexes à la pratique de la pharmacie

Il existe également plusieurs publications sur les applications de l’IA dans des domaines qui touchent les pharmaciens sans nécessairement entrer dans l’analyse d’ordonnances comme tel. Mentionnons en particulier, sans que ce soit exhaustif, la pharmacovigilance et la surveillance de patients ou de médicaments précis (en particulier les antimicrobiens).

Pour ceux qui veulent pousser davantage: comment apprendre à créer un modèle d’apprentissage automatique ?

Pour bien comprendre les implications de l’IA et du ML, je crois qu’il est grandement préférable d’en faire soi-même, même si ce n’est qu’un petit projet. Heureusement, il est tout à fait possible d’apprendre les bases avec des livres et des cours en ligne gratuits ou peu coûteux. Le plus gros investissement à prévoir est du temps. Il faut évidemment avoir un intérêt pour les mathématiques (en particulier l’algèbre linéaire), les statistiques, et la programmation. Les techniques simples de ML peuvent être exécutées sur à peu près n’importe quel ordinateur moderne. Seule exception, pour se lancer dans les réseaux de neurones et l’apprentissage profond, il faut une machine avec une bonne quantité de mémoire vive et une carte graphique Nvidia récente.

Globalement, pour arriver à réaliser un projet d’intelligence artificielle, il faut:

Il existe un nombre impressionnant de tutoriels, de cours et de livres sur le sujet, la sélection que je vous présente est uniquement le cheminement que j’ai suivi moi-même pour y arriver. Toutes ces étapes ne sont définitivement pas obligatoires et même se recoupent un peu, l’objectif ici est simplement de partager un maximum de ressources pour ceux qui seraient intéressés à tenter l’expérience eux-mêmes.

Deux études multicentriques sur les logiciels d’assistance aux préparations stérile

J’ai parlé à plusieurs reprises d’études évaluant divers logiciels d’assistance aux préparations stériles, combinant essentiellement entre une et trois technologies parmi la lecture de code-barres, la prise de photos et la pesée (gravimétrie).

Deux études sur le sujet sont parues dans l’AJHP de juin. Ces deux études me semblent un peu étranges car elles ont seulement deux auteurs en commun (sur 10 pour la première et sur 4 pour la deuxième), cependant elles sont à toutes fins pratiques identiques sauf pour les hôpitaux ciblés, même le titre est presque identique et certains paragraphes sont copiés mot pour mot. On constate que les deux études ont été financées par le manufacturier multinational d’un logiciel d’assistance aux préparations stériles et que les deux études ciblent spécifiquement ce système sans le comparer à d’autres. La première inclut des hôpitaux de grande taille et la deuxième des hôpitaux plus petits (« communautaires »). De plus, la plus grosse étude comporte un paragraphe dans son introduction qui décrit le système, ce qui n’est pas mal en soi, mais en utilisant une formulation que je trouve plus appropriée à une brochure publicitaire qu’à une publication scientifique, en parlant des parts de marché du système, du nombre de doses préparées au total dans tous les hôpitaux qui ont ce produit et du nombre d’erreurs supposément évitées depuis le lancement du logiciel. Les références données pour ces chiffres sont les données internes du manufacturier et un magazine non scientifique sur les produits de pharmacie. Mon opinion est que ce genre d’affirmations basée sur des références molles n’a pas sa place dans une étude sensée être scientifique. Ceci étant dit, concentrons-nous sur la partie scientifique de ces études.

Il s’agit d’études comparatives entre des centres ayant implanté un logiciel d’assistance aux préparations stériles combinant la lecture de code-barres et la prise de photos, par rapport à des centres travaillant sans logiciel. La première étude concernait des centres de plus de 200 lits et la deuxième des centres de moins de 200 lits. Dans la première étude, la méthode de sélection des centres n’est pas décrite du tout. Dans la deuxième, on mentionne une sollicitation à travers une liste de diffusion nationale, cependant le nombre de répondants et les critères de sélection des centres participants ne sont pas décrits.

Les objectifs étaient très similaires dans les deux études. Dans les deux cas, on voulait comparer les taux et les types d’erreurs interceptées (objectif primaire) ainsi que le temps de préparation des médicaments ciblés par le système et les coûts. Les données pour les hôpitaux avec le logiciel étaient extraites à l’aide de rapports générés par le système. Pour les hôpitaux travaillant sans logiciel, un formulaire a été mis en place pour collecter les erreurs interceptées et les temps de préparation étaient mesurés au chronomètre. Les types d’erreur collectés n’étaient pas les mêmes entre les deux groupes; les erreurs collectées à partir du logiciel étaient plus détaillées, c’est-à-dire que chaque type d’erreur dans le système manuel était subdivisé en plusieurs types dans le logiciel. Le type d’erreur « produit expiré » était collecté à partir du logiciel mais n’existait pas dans la collecte manuelle. Pourtant, ce type d’erreur peut survenir dans un hôpital travaillant sans logiciel (j’en intercepte moi-même de temps en temps), je ne comprends pas cette omission. Le calcul de coûts était fait en multipliant simplement le temps de préparation par des salaires horaires hypothétiques pour les techniciens et pharmaciens. Le coût du système n’était pas compté. Il s’agit selon moi de données hypothétiques, donc je n’en parlerai pas davantage. Toutes les données ont été collectés sur une période de 3 mois sauf les données de temps qui ont été collectés sur 3 à 5 jours dans le groupe sans logiciel.

Résultats de l’étude pour les centres de plus de 200 lits

8 sites ont été inclus, 4 avec logiciel et 4 sans logiciel. Un centre dans le groupe sans logiciel était clairement plus gros que les autres avec plus de 115 000 doses dans ce seul centre durant l’étude. 96 865 doses ont été préparées dans le groupe avec logiciel et 244 273 dans le groupe sans logiciel. 2679 erreurs ont été détectées dans le groupe avec logiciel comparativement à 739 dans le groupe sans logiciel. Les taux d’erreurs rapportés dans l’article ont été calculés en obtenant le taux d’erreur par centre et en faisant une moyenne (non pondérée) entre les centres. Les résultats rapportés sont donc de 3,13% d’erreurs dans les centres avec logiciel contre 0,22% dans les centres sans logiciel. On rapporte une différence statistiquement significative entre ces moyennes. J’ai refait un test exact de Fisher sur la table de contingence avec les chiffres bruts et la différence demeure statistiquement significative.

Les erreurs les plus fréquemment rapportées étaient la sélection du mauvais médicament dans le groupe avec logiciel à 63,3% alors que le taux de cette erreur était de 17% dans les centres sans logiciel, où l’erreur la plus fréquente était un problème d’étiquetage à 22,7%. Les auteurs ne discutent pas de cette énorme différence de distribution. La détection accrue semble être l’explication intuitive, mais on peut imaginer que si autant d’erreurs de sélection de médicament avaient lieu dans les sites sans logiciel et n’étaient pas détectées, on verrait des conséquences cliniques extrêmement importantes, il semble donc y avoir ici un autre facteur en jeu. Malheureusement, les données présentées n’informent pas davantage sur ce point.

En ce qui a trait au temps de préparation, les données collectées dans le groupe avec logiciel incluaient le temps d’attente pour la vérification du produit alors que ce temps était exclus dans le groupe sans logiciel, les auteurs ont donc « normalisé » le temps de vérification des produits dans le groupe avec logiciel. Le temps total dans le groupe avec logiciel était de 7,01 minutes avec la normalisation et 11,59 minutes sans la normalisation. Le temps total dans le groupe sans logiciel était de 12,77 minutes. Encore une fois, ce sont des moyennes non pondérées entre les centres et non une vraie moyenne sur l’ensemble des données.

Résultats de l’étude pour les centres de moins de 200 lits

4 centres ont participé, 2 par groupe. 4944 doses ont été préparées dans le groupe avec logiciel et 2269 dans le groupe sans logiciel. 187 erreurs ont été détectées dans le groupe avec logiciel et seulement 3 dans le groupe sans logiciel, ce qui me semble quand même faible pour une période de collecte de 3 mois. Bien évidemment, il y a une différence statistiquement significative entre les groupes.

On observe la même différence de distribution sur les types d’erreurs alors que les erreurs de sélection de produit représentent plus de 70% des erreurs dans le groupe avec logiciel alors qu’il s’agit de 33% des erreurs dans le groupe sans logiciel.

La collecte de données pour le temps de préparation semble avoir été problématique dans le groupe sans logiciel et donc je crois qu’on ne peut pas trop se fier à ces données.

Au total

Ces deux études me semblent difficiles à interpréter avec confiance. L’énorme duplication entre les deux publications m’apparaît étrange. En ce qui a trait à la détection d’erreur, la différence importante dans la distribution des types d’erreurs entre les groupes, dans les deux études, m’amène à penser que l’on ne peut pas comparer simplement les taux d’erreurs entre ces groupes. Il semble y avoir un facteur en jeu qui n’est pas capturé dans les données présentées puisque je n’arrive pas à croire qu’autant d’erreurs de sélection de médicament puissent avoir été non-détectées dans les centres sans logiciel. En ce qui a trait au temps de préparation, la méthode de calcul différente entre les groupes, ayant mené à la nécessité de « normaliser » une partie du temps calculé dans le groupe avec logiciel, me semble injustifiable. La méthode de collecte dans les centres sans logiciel aurait dû être prévue pour être directement comparable à la durée capturée par le logiciel. Je ne crois donc pas que l’on puisse se fier à ces temps.

En ce qui a trait à l’applicabilité de ces données, j’aurais aimé avoir un peu plus de détails sur la méthode de travail dans les centres inclus dans l’étude. Je crois comprendre que tous les centres de la première étude utilisaient une préparation dose par dose en « temps réel », alors qu’un hôpital dans la petite étude préparait ses doses la veille, mais les données de ce centre ont été exclues. Je ne crois donc pas que l’on puisse appliquer directement les conclusions de ces études au Québec, où la préparation est généralement faite en lots ou en service quotidien avec une préparation la veille de l’administration.