Étude sur l’analyse d’ordonnances par machine learning pour cibler les interventions du pharmacien

Une première publication résolument orientée vers l’application de machine learning au travail du pharmacien en contexte hospitalier a été publiée par un groupe d’auteurs français en septembre dans le JAMIA. L’article commence avec une référence à To Err is Human, peut-être lisent-ils ce blogue… Un logiciel commercial combinant le machine learning à une aide à la décision classique basée sur des règles a été utilisé. L’objectif de l’étude était de décrire la performance de ce système en comparaison à celle d’un pharmacien.

L’étude a été réalisée dans un hôpital parisien de 592 lits. Dans cet hôpital, les pharmaciens ne révisent pas les ordonnances systématiquement pour tous les patients, mais plutôt uniquement pour certains départements, ce qui concorde avec la pratique française en général. Il est donc supposé que l’utilisation d’un logiciel permettant d’identifier les patients pour lesquels une intervention pharmaceutique est requise à l’aide d’un modèle de machine learning permettrait d’optimiser le travail du pharmacien en lui évitant de réviser des profils ne comportant pas de problèmes. Ceci rejoint les hypothèses qui sous-tendent les travaux que je coordonne moi-même dans ma pratique.

Le modèle de machine learning utilisé était un classificateur binaire prédisant l’intervention d’un pharmacien. Les données fournies en entrée au modèle étaient les données de laboratoires, les données démographiques, certaines données de l’histoire médicale et les paramètres physiologiques. En ce qui a trait aux données du profil pharmacologique, il est à noter que les ordonnances ou le profil pharmacologique eux-mêmes ne semblent pas avoir été utilisés. Plutôt, le résultat de l’analyse du profil par un logiciel d’aide à la décision basé sur des règles semble avoir été privilégié, en fournissant au modèle le statut de déclenchement de chaque alerte possible après l’analyse du profil. Les données exactes choisies de même que leur traitement sont relativement peu décrits, on imagine que ceci découle du fait que l’étude concerne un logiciel commercial. L’apprentissage a été fait de manière supervisée en utilisant la présence d’intervention du pharmacien (réduite à une variable binaire) comme sortie du modèle. Le modèle lui-même était une variante de boosting d’arbres de décision, donc un modèle relativement simple et transparent. Il est dommage que l’étude n’ait pas comparé d’approches plus simples (régression logistique) ni plus complexes (réseaux de neurones) pour voir si le choix de technique était le meilleur. Il n’y a pas eu non plus d’évaluation d’importance des données utilisées par le modèle qui aurait pu fournir des explications sur les prédictions. Au niveau temporel, le modèle semblait générer une prédiction à chaque fois qu’une nouvelle ordonnance était analysée, mais il ne semble pas que cette analyse se concentrait sur cette ordonnance précisément; le modèle n’indiquait donc pas au pharmacien exactement sur quoi devrait porter son intervention.

Le modèle a été entraîné à l’aide de 18 mois de données extraites des dossiers électroniques du centre, soit de janvier 2017 à août 2018. Le processus d’entraînement et de test est peu décrit. L’étude concerne une validation du modèle entraîné qui a été faite en comparaison avec l’opinion d’un seul pharmacien sur une période de 2 semaines. Seuls les problèmes identifiés par le pharmacien mais pas par le modèle ont été évalués par plus d’un clinicien. Des ordonnances ont été sélectionnées aléatoirement durant ces deux semaines et les interventions faites par le pharmacien ont été notées, puis comparées aux prédictions du modèle. Les résultats rapportés incluent l’aire sous la courbe ROC, ce qui n’est pas adéquat selon moi puisque la prévalence d’interventions était très faible à 3,6%, je me concentrerai donc uniquement sur l’aire sous la courbe précision-rappel (AUPR) et le score F1, des mesures plus représentatives en présence de débalancement de classes. Deux comparateurs non-machine learning ont été utilisés, ce qui est très bien, soit les alertes générés par le système d’aide à la décision basé sur les règles et un score basé sur des facteurs de risque du patient (âge, fonction rénale, potassium et INR).

3364 ordonnances pour 412 patients ont été évalués par le pharmacien. 211 interventions ont été recommandées par le pharmacien pour 174 patients. L’AUPR du modèle était de 0,75 et le score F1 de 0,74 en comparaison avec respectivement 0,56 et 0,61 pour les alertes d’aide à la décision et 0,56 et 0,64 pour le score basé sur les facteurs de risque, ce qui démontre une bonne performance du modèle, supérieure aux autres outils et assez proche de celle du pharmacien. Malheureusement, les interventions ainsi réalisées sont peu décrites, il est donc difficile de juger de l’impact clinique pour le patient. En particulier, je trouve que la performance du système d’aide à la décision dans cette étude était très élevée, avec une précision à 0,54 et un rappel à 0,69, indiquant relativement peu de faux positifs par rapport à ce que j’observe dans ma propre pratique, où une large proportion des alertes d’aide à la décision sont des faux positifs. Peut-être le système que j’utilise est-il peu performant ou celui utilisé dans l’étude était très performant. Il aurait été plus facile d’avoir confiance en ces chiffres si l’opinion de plus d’un pharmacien avait été obtenue. Néanmoins, je trouve positif de constater qu’un tel modèle, avec une approche simple, est capable d’avoir une aussi bonne performance. Ceci démontre bien qu’il y a une place pour des outils d’intelligence artificielle dans la pratique clinique du pharmacien.

Je trouve que la plus grosse lacune du modèle étudié dans cette étude est le fait qu’il s’agisse d’un apprentissage supervisé à partir des interventions passées de pharmaciens, dont l’utilisation pratique serait d’orienter ces mêmes interventions. Je vois mal comment ce modèle pourrait survivre à sa propre implantation. Il est bien connu que les modèles de machine learning utilisés pour prédire des interventions en soins de santé doivent constamment être réentraînés pour prendre en compte l’évolution de la pratique influençant ces interventions. Cependant, si l’intervention elle-même est utilisée comme cible dans un entraînement supervisé, et que le modèle est en même temps utilisé pour décider d’intervenir, le modèle se retrouve à utiliser ses propres prédictions pour se réentraîner, ce qui est évidemment délétère. J’aurais aimé voir une discussion de comment les auteurs prévoient gérer ce problème une fois leur modèle déployé.

Malgré cela, il s’agit définitivement d’un article pertinent et à connaître pour les pharmaciens s’intéressant au machine learning. Je suis très heureux de voir des applications pratiques en pharmacie hospitalière commencer à apparaître dans la littérature scientifique.

Expérience d’implantation d’un dossier électronique commercial dans 3 pays européens

Cet article, publié en septembre dernier, compare l’expérience d’implantation d’un dossier électronique commercial de grande envergue (je vous laisse découvrir lequel en lisant l’article) dans trois pays européens en étant à divers points dans leur déploiement: le Royaume-Uni, le Danemark et la Norvège. L’article a été écrit du point de vue de la Norvège, avec une perspective d’apprentissage à partir des expériences des deux autres pays. À noter que l’expérience d’implantation décrite dans l’article concerne principalement des hôpitaux précis et décrit très peu l’expérience au niveau national, sauf peut-être pour la Norvège mais qui semble en être encore au début du projet. Le point de vue est intéressant parce que l’implantation anglaise était la première expérience européenne du fournisseur davantage habitué au contexte américain.

Les expériences anglaises et danoises ont été synthétisées à partir de documents publics. L’expérience norvégienne, quant à elle, a été obtenue à partir d’entretiens avec six gestionnaires de haut niveau du projet.

L’expérience du Royaume-Uni

L’implantation dans un centre composé de plusieurs hôpitaux totalisant 1486 lits, affilié à l’université Cambridge, est décrite. Le déploiement a eu lieu en octobre 2014, soit 18 mois après la signature du contrat. L’implantation, partant du niveau EMRAM 1, a nécessité l’installation de milliers d’ordinateurs et la formation de près de 12 000 personnes. De nombreuses difficultés ont eu lieu au déploiement, j’en cible deux plus concrets mais la liste dans l’article est plus détaillée, quoique certains problèmes semblent plutôt vagues:

  • Le transfert des dossiers papiers dans le nouveau système n’était pas complété au moment du déploiement.
  • Divers problèmes techniques ont eu un impact majeur allant jusqu’à nécessiter la diversion des ambulances vers d’autres centres pendant 4 heures.

On note aussi les effets suivants qui ont été notés lors d’un audit en avril 2015:

  • Des difficultés liées à la prescription électronique de médicaments.
  • Des difficultés à extraire les données nécessaires pour mener des audits.

Il est aussi noté que lors d’un audit subséquent en décembre 2016, ces difficultés semblaient s’être atténuées et l’hôpital avait maintenant un niveau EMRAM 6.

L’expérience danoise

Le déploiement au Danemark a eu lieu dans plusieurs hôpitaux de manière successive entre mai 2016 et novembre 2017, après un contrat signé en décembre 2013. L’article décrit le déploiement dans le premier centre, comptant 949 lits, en mai 2016. L’hôpital partait du niveau EMRAM 3. Les problèmes décrits dans les 3 premiers mois du déploiement sont les suivants:

  • Le nombre d’incidents et accidents a augmenté, et deux cas d’accidents ont été attribués au logiciel.
  • Différents problèmes d’interopérabilité ont été constatés, notamment pour les admissions et départs, l’identification des nouveau-nés, l’intégration avec les équipements, l’intégration avec le dossier de santé national, et l’envoi des requêtes d’analyses de laboratoire.

Un audit en juin 2018 a relevé divers problèmes, notamment:

  • La formation sur le logiciel a eu lieu en accéléré sur 6 semaines en raison de problèmes avec le matériel de formation et celui-ci ne prenait pas en compte les changements les plus récents au logiciel.
  • Certains tests de fonctionnalités ont été retardés et les erreurs constatées n’ont pas été corrigées avant le déploiement.
  • La diminution de productivité normale lors de l’implantation d’un nouveau système semble avoir été minimisée à 3 semaines dans les analyses de coûts/bénéfices, alors qu’en réalité la productivité était toujours diminuée 18 mois après le déploiement.
  • Les fonctionnalités d’extraction de données étaient inadéquates et avaient été peu testées avant le déploiement, par conséquent la plupart des rapports n’étaient pas adéquats dans le contexte du système de santé danois.

L’expérience Norvégienne

L’expérience décrite concerne les hôpitaux, cliniques médicales, les soins de longue durée et soins à domicile d’une seule région; l’idée étant qu’il s’agisse d’un projet pilote pour l’élargissement du déploiement à l’ensemble du pays. Le déploiement concernait donc 3 hôpitaux dont le plus grand avait près de 1000 lits, et il était déjà grandement informatisé. Le logiciel implanté remplaçait donc certains systèmes déjà en place. Le déploiement décrit dans l’article était prévu pour 2021, mais l’article a été publié avant la pandémie de COVID-19.

Les entrevues font ressortir le fait que les préparatifs devaient inclure un grand nombre de cliniciens; dans leur cas plus de 400 ayant participé à une centaine d’ateliers de travail afin de standardiser les processus de travail et de définir le plan de migration.

Ils mettent l’emphase aussi sur le fait que la configuration du système sera faite en grande partie par des cliniciens formés à cette tâche dans le contexte du logiciel, travaillant à temps plein, et incluant des médecins, afin de s’assurer que le résultat soit adéquat pour les besoins des cliniciens.

Les gestionnaires décrivent comment, dans le processus de configuration du système, le fournisseur maintient un échéancier précis et demande que les décisions de configuration soient prises dans des délais fixes. Advenant une absence de décision, les fonctionnalités mises en place sont celles « par défaut ». Dans la perception des gestionnaires interviewés, l’expérience négative du Danemark découlait de plusieurs délais dans la prise de décision ayant mené à beaucoup de configurations « par défaut » non adaptées.

Les auteurs décrivent également comment l’absence de plans de carrière définis mélangeant l’aspect informatique et l’aspect clinique en Norvège avait comme conséquence que les cliniciens étaient traditionnellement peu impliqués dans le développement et le paramétrage des logiciels utilisés dans les hôpitaux (ça me rappelle le Québec…) et cela a pu influencer la participation des cliniciens au processus de configuration. Ils soulignent qu’au Danemark l’équipe de médecins ayant participé à la configuration du logiciel comptait 70 personnes, ce qui était insuffisant selon eux. Ils notent également que le logiciel offre une certaine flexibilité mais dépend largement de la standardisation de la méthode de travail clinique et que les décisions qui sont prises tôt dans la configuration du logiciel sont difficiles à changer par la suite.

En conclusion

Je trouve que cet article est riche en leçons à tirer à propos des bonnes pratiques à mettre en place pour implanter avec succès un tel logiciel. Je retiens:

  • L’importance des tests liés aux fonctionnalités clinique, à l’interopérabilité des systèmes interfacés et à l’extraction de données avant le déploiement.
  • La nécessité de planifier longtemps d’avance la formation des cliniciens qui travailleront avec les logiciels.
  • L’importance de réaliser que le déploiement s’accompagnera d’une période de difficulté et de diminution de la productivité qui doit être soutenue et accompagnée pour éviter des erreurs affectant les patients, on comprend qu’il est nécessaire d’affecter des ressources dédiées à ce soutien.
  • L’obligation de désigner un grand nombre de cliniciens qui deviendront des experts du système, qui devront assurer la standardisation des flots de travail, la configuration du système et le suivi et le maintien à jour du paramétrage une fois le déploiement effectué. Ceci sous-entend que leur carrière deviendra un mélange de clinique et d’informatique pour un grand bout de temps, et cette spécialisation doit être reconnue et valorisée. Du point de vue de la pharmacie, ceci rejoint tout à fait les articles publiés sur le rôle du pharmacien en informatique clinique.

Du point de vue des limites de l’article, malheureusement la cause des problèmes identifiés est peu approfondie. Dans ma propre expérience d’implantation de divers systèmes électronique en remplacement de modes de travail sur papier, il est très fréquent que le système lui-même soit blâmé comme cause directe alors qu’en réalité ce sont des choix faits dans la configuration du système, ou alors des problèmes liés à la formation, à la communication ou aux ressources disponibles pour paramétrer ou suivre le fonctionnement du système, qui font défaut.

Faire le choix de travailler dans un système électronique qui impose nécessairement des contraintes sur la manière de faire certaines choses nécessite d’avoir la maturité pour se dire qu’on accepte de modifier notre façon de travailler pour le bien de tous, pour que les données produites soient compréhensibles et interopérables, et que le résultat soit sécuritaire pour le patient. C’est un changement de culture. Lorsqu’on est habitué à travailler sur papier, on se permet une variabilité, du flou et des variations plus ou moins bien définies dans la méthode de travail, qui sont rarement possibles dans un mode électronique. Essayer de reproduire ces comportements dans un système électronique mène nécessairement à de la frustration, à des contournements et possiblement à des erreurs, et dans ces cas il est facile de blâmer « le système ». L’article donne un certain aperçu de cela avec les entrevues en Norvège qui faisaient ressortir comment les gestionnaires avaient l’impression que l’équipe d’experts cliniques danois, qui comptait pourtant 70 personnes, était trop petite. Il y a là je crois un élément très important à ne pas négliger dans la planification de la mise en place d’un dossier électronique.

Le rôle du pharmacien en informatique clinique, l’expérience canadienne

Il y a 4 ans, je parlais de mes perceptions sur le rôle du pharmacien en informatique clinique sur la base de deux énoncés de position par l’ASHP et l’AMIA. Depuis, plusieurs choses ont évolué plus près de nous et certaines provinces canadiennes ont commencé le déploiement de dossiers électroniques complets, ce qui implique évidemment les pharmaciens et amène la concentration de la pratique de certains pharmaciens en informatique clinique moderne.

Je vous parle aujourd’hui d’un article dans le CHJP de l’été dernier, qui est disponible en texte complet gratuitement sur PubMed Central, et qui a été écrit par des pharmaciens de Toronto. L’article présente l’expérience des auteurs en relation avec les 5 compétences identifiées dans l’énoncé de position de l’ASHP, dans le cadre de certaines situations qu’ils ont vécues en pratique.

Gestion des données, de l’information et des connaissances sur les médicaments

Les auteurs discutent de l’importance de la nomenclature des médicaments et des ensembles d’ordonnances (order sets). Ils expliquent qu’ils ont mis en place des standards pour les noms des médicaments, pour l’utilisation d’abréviations et pour les troncatures lorsque les limites de caractères ne permettent pas de tout écrire au long. Les exemples sont intéressants, par exemple le cas d’une insuline au nom trop long qui dépassait d’une ligne affichée à l’écran, rendant impossible la lecture du nom du produit à utiliser.

Dissémination de l’information et des connaissances sur les médicaments

Les fonctionnalités d’aide à la décision des dossiers électroniques permettent l’affichage d’information utile à la tâche en cours et de contraintes dans le flot de travail afin de s’assurer que certaines tâches soient accomplies. L’article décrit le développement d’un ensemble d’ordonnances pour prévention de la thromboembolie veineuse qui a été intégré aux ordonnances d’admission afin d’assurer l’évaluation du risque dans les 24 heures suivant l’admission. On mentionne aussi l’ajout d’alertes de double-vérification dans la FADM électronique, l’affichage de résultats de laboratoire pertinents au moment de la prescription, et le développement de règles de surveillance des antimicrobiens.

Les auteurs mentionnent l’importance de collecter et analyser l’information sur le déclenchement et les actions prises face aux alertes pour réduire le phénomène de désensibilisation.

Analyse des données

L’analyse des données disponibles dans les dossiers électroniques est illustrée à l’aide d’un exemple de calcul d’indicateurs de l’activité clinique des pharmaciens à partir de ces données. Cela repose sur un formulaire standardisé dans le dossier électronique pour les consultations initiales et les notes de suivi. Les auteurs expliquent aussi qu’ils ont collaboré à la création d’un entrepôt de données, et qu’ils participent à l’analyse des demandes d’extraction d’information pour valider l’exactitude des informations sur les médicaments.

Application de principes d’informatique

Les auteurs décrivent comment la gestion de ruptures d’inventaire de médicaments leur permet de combiner leur expérience de cliniciens aux principes de gestion des systèmes d’information pour que la conduite à tenir soit claire dans les systèmes au moment de la prescription.

Leadership et la gestion du changement

L’article explique comment les pharmaciens en informatique clinique ont contribué au déploiement de la prescription électronique, des pompes à perfusion, des cabinets automatisés et du bilan comparatif des médicaments électronique.

Les auteurs concluent en mentionnant l’importance d’assurer une formation en informatique clinique pour les étudiants en pharmacie, le rôle des pharmaciens dans l’interprétation des données pouvant servir aux applications l’intelligence artificielle, ainsi que les défis de l’harmonisation des pratiques dans des réseaux d’hôpitaux de plus en plus gros et complexes.