Revue sur l’implantation d’un dossier de santé électronique national

Je vous parlais récemment de l’expérience d’implantation d’un logiciel commercial de dossier de santé électronique dans 3 pays européens, de même que de l’impact du déploiement de tels logiciels sur le travail du pharmacien d’établissement au Canada anglais. Un article d’auteurs irlandais, publié en septembre 2020, rapporte une revue de la littérature visant à identifier les principaux facteurs associées à une implantation réussie d’un tel système dans un pays. L’article est disponible en texte complet gratuitement sur PubMed Central. Il s’agit d’un umbrella review (revue parapluie ?), soit une revue de revues de littérature réalisée selon une méthode reconnue par l’OMS. 10 experts et utilisateurs de connaissance ont participé à cette démarche.

La revue elle même a été réalisée en mars 2019 avec des termes standardisés à travers plusieurs bases de données incluant PubMed, CINAHL et Embase. Seules les articles en anglais publiés depuis 2010 ont été recherchés. D’autres sources de littérature grise connues des membres du panel ont aussi été retenues. Les titres, abstracts puis textes complets ont été examinés par un seul chercheur pour sélectionner les articles à inclure, seuls les articles où celui-ci avait un doute étaient évalués en panel pour discuter de leur inclusion. Les facteurs associés au succès de l’implantation ont été extraits des articles inclus à l’aide d’une méthode itérative ressemblant aux méthodes utilisées en recherche qualitative.

5040 articles ont été révisés et 27 ont été inclus. Ces 27 revues tiraient des données de 974 sources uniques. Les facteurs de succès identifiés dans les publications ont été catégorisées en facteurs organisationnels, humains et technologiques. Ça vaut la peine de lire l’entièreté du texte pour bien saisir la profondeur des facteurs identifiés, j’identifierai ici seulement ceux que je trouve plus intéressants.

  • Facteurs organisationnels
    • La gouvernance, le leadership et la culture: les auteurs identifient qu’il est nécessaire de s’écarter d’une approche de gestion centralisée ou avec trop de gestionnaires intermédiaires (top and middle management), pour favoriser plutôt l’émergence de champions locaux pour amener le changement.
    • L’implication des utilisateurs finaux: il est nécessaire d’identifier des champions utilisateurs, qui ont l’expertise d’utilisateur de chaque fonctionnalité du système, ainsi que des connaissances techniques adéquates pour faire le lien entre le volet technique et le volet clinique du projet.
    • La formation: la formation au départ est nécessaire, de même qu’un support constant par la suite. Le support doit prendre la forme de super utilisateurs de chaque fonction du système de même que de chemins d’escalade pour les problèmes plus complexes. Il ne faut pas non plus négliger l’aspect de support de l’infrastructure informatique sur laquelle repose le système.
    • Les ressources: les auteurs identifient particulièrement l’importance d’avoir des ressources compétentes pour la gestion des problèmes localement dans chaque installation pour éviter de devoir remonter au fournisseur pour gérer les problèmes.
    • Les flux de travail: il est nécessaire de réorganiser les flux de travail clinique pour que ceux-ci soient gérables à l’aide du système informatique choisi et utilisent ses capacités, l’inadéquation entre les flux de travail et le fonctionnement du système étant citée comme un élément de frustration très important.
  • Facteurs humains
    • Les capacités des utilisateurs: la littéracie technologique des utilisateurs peut aider au succès ou mener à l’échec d’un projet.
    • Bénéfices perçus: les utilisateurs doivent percevoir que l’implantation leur est bénéfique, il est donc important d’être transparent par rapport aux bénéfices et aux inconvénients attendus et de réellement offrir un avantage tangible aux utilisateurs pour qu’ils acceptent le changement.
    • Le changement à l’écosystème de santé: les utilisateurs doivent comprendre comment cette implantation transformera leur rôle et leurs responsabilités, afin de gérer leurs craintes par rapport à cette évolution.
  • Facteurs technologiques
    • Utilisabilité: le logiciel doit être utilisable, ce qui est facile à dire mais s’accompagne d’exigences très complexes quand à la personnalisation des affichages, au choix des terminologies et à la configuration en général du système.
    • Interopérabilité: aucun système n’est pleinement interopérable en raison d’une variété de facteurs, cependant les problèmes d’interopérabilité devraient être anticipés au maximum afin d’éviter de rendre l’échange d’information entre organisations ou systèmes impossible.
    • Infrastructure: l’implantation d’un tel système s’accompagne d’exigences de rehaussement des infrastructures de technologie à la fois pour héberger le système (serveurs, etc.) et pour l’utiliser (stations de travail clinique, etc.)
    • Réglementation: l’implantation doit s’accompagner d’une réévaluation de toute la réglementation entourant la gestion des données de santé, notamment au niveau de la confidentialité, de l’interopérabilité et de la transmission de données.
    • Adaptabilité: il est nécessaire de s’organiser de manière à ce que la personnalisation et la configuration du produit choisi puissent être faits localement par des pilotes de système expérimentés. Ceci permet de piloter le contenu du système et d’en adapter le fonctionnement afin de l’adapter le mieux possible aux besoins cliniques.
    • Tests: il ne faut pas négliger la grande quantité de ressources nécessaires pour tester adéquatement le système lors du déploiement initial et de ses mises à jour subséquentes.

La discussion est très intéressante, mettant en évidence par exemple les différences entre la vision américaine de l’implantation de ces systèmes centrée sur les revenus, la productivité et les critères de meaningful use, et les attentes différentes dans d’autres pays où le système de santé est organisé différemment. Les auteurs identifient également comment des approches de gestion qui ont fonctionné dans un pays peuvent échouer dans d’autres, par exemple l’approche top-down utilisée en Angleterre.

Je trouve l’article très bien fait. Les facteurs identifiés par les auteurs correspondent bien à ce que j’observe moi-même en pratique dans le contexte d’implantations de prescription électronique et de FADM électronique. Bien sûr, tous ces points sont complexes et doivent faire l’objet de compromis, de priorisation et de discussions avec toutes les personnes concernées, mais il s’agit de principes qui ne peuvent pas être ignorés.

Implantation d’un système de vérification des médicaments par code-barres

La sécurisation du circuit du médicament à l’aide de code-barres est un sujet complexe. Le code-barres peut être utilisé pour confirmer l’identité des produits utilisés dans des préparations stériles (souvent combiné à d’autres technologies) ou non-stériles, la préparation de kits de médicaments (de plus en plus combiné au RFID), lors de la validation contenant-contenu de produits commerciaux à la pharmacie, à des fins de traçabilité des médicaments et lors de l’administration au patient. Les études qui décrivent l’utilisation de cette technologie le font dans le cadre d’un système pouvant combiner plusieurs autres technologies, ainsi il devient souvent difficile de comparer les études entre elles.

Une nouvelle étude sur le sujet a été publié en août 2019 et est disponible en texte complet gratuitement sur PubMed Central. L’étude a été réalisée à Paris dans un hôpital universitaire de 714 lits disposant d’un dossier électronique et de prescription électronique. Le système de distribution en place dans ce centre implique des premières doses distribuées principalement à l’aide de cabinets décentralisés et un système mélangé de distribution unitaire quotidienne sur 4 unités et de distribution non unitaire sur 4 autres unités; l’étude a été menée sur les unités avec distribution unitaire. Le texte est un peu difficile à suivre car les auteurs parlent de « barcode-assisted medication administration (BCMA) », qui est généralement un terme désignant l’utilisation de code-barres au chevet du patient au moment de l’administration d’un médicament pour confirmer l’identité du médicament et du patient en relation avec la FADM. Cependant, dans cette étude on comprend qu’il s’agissait plutôt d’une vérification contenant-contenu au moment de la dispensation des services quotidiens à la pharmacie.

Durant trois jours, une unité de soins en service quotidien différente à chaque jour était randomisée à la vérification par code-barres et une autre servait de contrôle, donnant 3 jours d’observation de dispensation vérifiée par code-barres et 3 jours de dispensation avec vérification sans code-barres. Les techniciens utilisant le système ont reçu une formation d’une semaine avant l’étude. Les techniciens ayant préparé les médicaments n’ont pas été observés directement; les investigateurs ont plutôt effectué des vérifications a posteriori des doses préparées, comme c’est le cas habituellement lors d’une vérification manuelle.

Le taux d’erreurs était 7,9% (nombres d’erreurs / nombre d’opportunités d’erreur) dans les deux groupes, le kappa entre les observateurs était de 0,88. Ce taux me semble élevé, dans ma pratique les erreurs de préparations des services quotidiens de médicaments sont rares, bien plus rares que 8%. Dans le groupe avec code-barres, le taux d’erreurs d’omission était plus élevé alors que le taux d’erreur de patient et de médicaments non prescrits était plus faible. Les auteurs listent un grand nombre d’enjeux techniques et humains ayant mené à des problèmes durant le projet, essentiellement le système utilisé était mal adapté au contexte d’un hôpital de soins aigus et l’interface permettant de transformer les données du système de prescription électronique en listes de médicaments à préparer (pas de profil pharmacologique ?) était dysfonctionnelle. Les produits eux-mêmes ne comportaient parfois aucun code-barres ou une code-barres inutilisable. Des enjeux de formation ont aussi été relevés. Donc, on peut conclure que les résultats de cette étude ne veulent pas dire grand-chose.

Pourquoi est-ce que je parle de cette étude dans ce cas ? Je trouve que la liste de problèmes décrite démontre bien comment des enjeux techniques et humains peuvent faire échouer un projet. Ici, un système, de l’aveu même des auteurs, mal adapté à l’utilisation qu’on souhaitait en faire et mal interfacé avec le reste du dossier électronique en place, a démontré de nombreux problèmes, en plus d’enjeux reliés à la formation et à l’utilisation du système. Ce que cette étude démontre selon moi, c’est que le succès ou l’échec d’une technologie est bien plus dépendant de la façon dont elle est mise en place que du simple fait qu’elle soit utilisée. Ceci repose sur un cadre technique adéquat et une gestion du changement planifiée avec rigueur.

Étude sur l’analyse d’ordonnances par machine learning pour cibler les interventions du pharmacien

Une première publication résolument orientée vers l’application de machine learning au travail du pharmacien en contexte hospitalier a été publiée par un groupe d’auteurs français en septembre dans le JAMIA. L’article commence avec une référence à To Err is Human, peut-être lisent-ils ce blogue… Un logiciel commercial combinant le machine learning à une aide à la décision classique basée sur des règles a été utilisé. L’objectif de l’étude était de décrire la performance de ce système en comparaison à celle d’un pharmacien.

L’étude a été réalisée dans un hôpital parisien de 592 lits. Dans cet hôpital, les pharmaciens ne révisent pas les ordonnances systématiquement pour tous les patients, mais plutôt uniquement pour certains départements, ce qui concorde avec la pratique française en général. Il est donc supposé que l’utilisation d’un logiciel permettant d’identifier les patients pour lesquels une intervention pharmaceutique est requise à l’aide d’un modèle de machine learning permettrait d’optimiser le travail du pharmacien en lui évitant de réviser des profils ne comportant pas de problèmes. Ceci rejoint les hypothèses qui sous-tendent les travaux que je coordonne moi-même dans ma pratique.

Le modèle de machine learning utilisé était un classificateur binaire prédisant l’intervention d’un pharmacien. Les données fournies en entrée au modèle étaient les données de laboratoires, les données démographiques, certaines données de l’histoire médicale et les paramètres physiologiques. En ce qui a trait aux données du profil pharmacologique, il est à noter que les ordonnances ou le profil pharmacologique eux-mêmes ne semblent pas avoir été utilisés. Plutôt, le résultat de l’analyse du profil par un logiciel d’aide à la décision basé sur des règles semble avoir été privilégié, en fournissant au modèle le statut de déclenchement de chaque alerte possible après l’analyse du profil. Les données exactes choisies de même que leur traitement sont relativement peu décrits, on imagine que ceci découle du fait que l’étude concerne un logiciel commercial. L’apprentissage a été fait de manière supervisée en utilisant la présence d’intervention du pharmacien (réduite à une variable binaire) comme sortie du modèle. Le modèle lui-même était une variante de boosting d’arbres de décision, donc un modèle relativement simple et transparent. Il est dommage que l’étude n’ait pas comparé d’approches plus simples (régression logistique) ni plus complexes (réseaux de neurones) pour voir si le choix de technique était le meilleur. Il n’y a pas eu non plus d’évaluation d’importance des données utilisées par le modèle qui aurait pu fournir des explications sur les prédictions. Au niveau temporel, le modèle semblait générer une prédiction à chaque fois qu’une nouvelle ordonnance était analysée, mais il ne semble pas que cette analyse se concentrait sur cette ordonnance précisément; le modèle n’indiquait donc pas au pharmacien exactement sur quoi devrait porter son intervention.

Le modèle a été entraîné à l’aide de 18 mois de données extraites des dossiers électroniques du centre, soit de janvier 2017 à août 2018. Le processus d’entraînement et de test est peu décrit. L’étude concerne une validation du modèle entraîné qui a été faite en comparaison avec l’opinion d’un seul pharmacien sur une période de 2 semaines. Seuls les problèmes identifiés par le pharmacien mais pas par le modèle ont été évalués par plus d’un clinicien. Des ordonnances ont été sélectionnées aléatoirement durant ces deux semaines et les interventions faites par le pharmacien ont été notées, puis comparées aux prédictions du modèle. Les résultats rapportés incluent l’aire sous la courbe ROC, ce qui n’est pas adéquat selon moi puisque la prévalence d’interventions était très faible à 3,6%, je me concentrerai donc uniquement sur l’aire sous la courbe précision-rappel (AUPR) et le score F1, des mesures plus représentatives en présence de débalancement de classes. Deux comparateurs non-machine learning ont été utilisés, ce qui est très bien, soit les alertes générés par le système d’aide à la décision basé sur les règles et un score basé sur des facteurs de risque du patient (âge, fonction rénale, potassium et INR).

3364 ordonnances pour 412 patients ont été évalués par le pharmacien. 211 interventions ont été recommandées par le pharmacien pour 174 patients. L’AUPR du modèle était de 0,75 et le score F1 de 0,74 en comparaison avec respectivement 0,56 et 0,61 pour les alertes d’aide à la décision et 0,56 et 0,64 pour le score basé sur les facteurs de risque, ce qui démontre une bonne performance du modèle, supérieure aux autres outils et assez proche de celle du pharmacien. Malheureusement, les interventions ainsi réalisées sont peu décrites, il est donc difficile de juger de l’impact clinique pour le patient. En particulier, je trouve que la performance du système d’aide à la décision dans cette étude était très élevée, avec une précision à 0,54 et un rappel à 0,69, indiquant relativement peu de faux positifs par rapport à ce que j’observe dans ma propre pratique, où une large proportion des alertes d’aide à la décision sont des faux positifs. Peut-être le système que j’utilise est-il peu performant ou celui utilisé dans l’étude était très performant. Il aurait été plus facile d’avoir confiance en ces chiffres si l’opinion de plus d’un pharmacien avait été obtenue. Néanmoins, je trouve positif de constater qu’un tel modèle, avec une approche simple, est capable d’avoir une aussi bonne performance. Ceci démontre bien qu’il y a une place pour des outils d’intelligence artificielle dans la pratique clinique du pharmacien.

Je trouve que la plus grosse lacune du modèle étudié dans cette étude est le fait qu’il s’agisse d’un apprentissage supervisé à partir des interventions passées de pharmaciens, dont l’utilisation pratique serait d’orienter ces mêmes interventions. Je vois mal comment ce modèle pourrait survivre à sa propre implantation. Il est bien connu que les modèles de machine learning utilisés pour prédire des interventions en soins de santé doivent constamment être réentraînés pour prendre en compte l’évolution de la pratique influençant ces interventions. Cependant, si l’intervention elle-même est utilisée comme cible dans un entraînement supervisé, et que le modèle est en même temps utilisé pour décider d’intervenir, le modèle se retrouve à utiliser ses propres prédictions pour se réentraîner, ce qui est évidemment délétère. J’aurais aimé voir une discussion de comment les auteurs prévoient gérer ce problème une fois leur modèle déployé.

Malgré cela, il s’agit définitivement d’un article pertinent et à connaître pour les pharmaciens s’intéressant au machine learning. Je suis très heureux de voir des applications pratiques en pharmacie hospitalière commencer à apparaître dans la littérature scientifique.