Une revue systématique sur l’intelligence artificielle en pharmacie

Les publications sur l’intelligence artificielle (IA) appliquée à la pratique de la pharmacie étaient peu nombreuses jusqu’à tout récemment. Cependant, des publications intéressantes commencent à sortir en provenance de plusieurs endroits du monde. Je mentionnais en 2019 que peu de littérature démontrant des exemples concrets, et pas seulement des idées, était disponible. Cette situation semble en voie de changer.

Une revue systématique provenant d’un groupe français a été publiée fin décembre 2022. Elle avait pour objectif de recenser les études quantitatives portant sur l’utilisation d’IA dans la prestation de services cliniques en pharmacie.

L’étude a suivi la méthodologie PRISMA et a cherché dans plusieurs banques de données, selon une stratégie structurée. Les publications de 2000 à décembre 2021 ont été incluses. Elles devaient être en anglais, avoir été révisées par les pairs, comporter une description adéquate de la technique d’IA utilisée, et décrire l’implication des pharmaciens dans l’utilisation ou le développement de l’outil. Les études portant sur la robotisation ont été exclues.

1817 articles ont été identifiés et 19 ont été retenus après toutes les étapes de sélection (déclaration de conflits d’intérêts: notre publication sur un outil d’IA pour la détection de profils pharmacologiques atypiques a été incluse dans la revue). 12 des 19 articles ont été publiés en 2020 ou 2021, et provenaient principalement d’Amérique du Nord (8 au total, 5 États-Unis et 3 Canada), d’Asie (3) et d’Europe (4).

13 études ont utilisé du machine learning, dont 3 du traitement du langage et 2 de l’apprentissage profond. 15 algorithmes différents ont été testés. 5 études ont utilisé de l’apprentissage non supervisé et 6 de l’apprentissage supervisé. Des données provenant de dossiers électroniques ont été utilisées dans 6 études et des données observationnelles ont été utilisées dans 5 études.

La tâche confiée aux modèles d’IA était surtout la révision d’ordonnances, dans 9 études. La dispensation était ciblée dans 4 études, et les entrevues et l’enseignement dans 2 études.

Dans les études portant sur la révision d’ordonnances, les études cherchaient toutes à identifier les ordonnances requérant l’intervention du pharmacien. Des pharmaciens d’établissement ont été impliqués dans toutes ces études. Les tâches spécifiques ciblées étaient la surveillance d’anti-microbiens, la vérification des doses, et la détection d’ordonnances ou de profils pharmacologiques atypiques. Toutes les études incluaient la confirmation de la prédiction des modèles par un pharmacien clinicien. 2 outils parmi 8 décrits étaient des produits commercialisés.

Dans les études portant sur la dispensation, 2 études incluaient des pharmaciens d’établissements et 2 des pharmaciens communautaires. Les tâches spécifiques ciblées étaient la prédiction des médicaments nécessaires pour des visites ambulatoires afin de réduire le temps d’attente, la vérification contenant contenu à partir d’images, l’émission de rappels et de communications afin d’améliorer l’observance, et l’optimisation de l’organisation des stocks.

Dans les études sur les entrevues et l’enseignement, les modèles utilisés visaient à identifier les causes médicamenteuses d’effets indésirables et détecter les erreurs d’administration.

Les auteurs soulignent que la plupart des études étaient mono centriques et faisaient face à des défis quant à la mise à jour des modèles face à l’évolution constante de la pratique. Aucune étude n’a fait allusion au bilan comparatif des médicaments.

Cette revue systématique démontre que l’utilisation d’IA dans la pratique de la pharmacie sera certainement une réalité avant longtemps. Je pense qu’on pourra voir le nombre de publications sérieuses sur ce sujet augmenter au courant des prochaines années et qu’il est pertinent pour les pharmaciens de connaître les principes généraux de cette technologie. Il demeure essentiel selon moi que les pharmaciens soient en mesure de comprendre et d’évaluer de manière critique les outils d’IA qui seront commercialisés pour une utilisation dans le circuit du médicament.

Prédiction d’interventions du pharmacien à l’aide de marqueurs du travail des prescripteurs

Une nouvelle publication décrivant l’utilisation de machine learning pour orienter l’évaluation des ordonnances par les pharmaciens, de la part d’auteurs américains, a été publiée en juillet 2021 dans JAMIA Open et est disponible en texte complet gratuitement sur PubMed Central. Ceci fait suite à des publications passées d’autres groupes sur le même sujet. Étrangement, il n’est pas clair dans les détails de la publications si des pharmaciens sont parmi les auteurs, mais le processus de travail des pharmaciens est très bien décrit, on peut donc assumer que des pharmaciens ont minimalement été consultés.

L’objectif de l’étude était d’élaborer un modèle de machine learning permettant d’identifier les ordonnances nécessitant une intervention de la part du pharmacien. L’étude a eu lieu dans 3 hôpitaux académiques américains totalisant 1600 lits. Un dossier électronique commercial était utilisé pour la prescription électronique et la vérification des ordonnances. Les données du dossier électronique de 2 semaines, du 10 au 24 juillet 2017, ont été extraites, comprenant environ 181 000 ordonnances en 36 500 « lots » (un lot étant un groupe d’ordonnances prescrites en même temps), pour 16 000 patients, par 2700 prescripteurs. 2054 de ces lots contenaient au moins une ordonnance requérant une intervention.

Les variables utilisées afin de prédire la nécessité d’intervention du pharmacien ont été construites sur la base des actions et des caractéristiques du prescripteur juste avant de prescrire, la théorie étant que la lourdeur des tâches et la fragmentation du travail du prescripteur avant de prescrire pourrait mener à davantage d’erreurs, et donc davantage d’interventions de la part du pharmacien. Les variables incluses étaient divisées en trois catégories:

  • Les mesures d’engagement envers les patients et le dossier électronique dans l’heure précédant la prescription (ex: nombre de patients consultés, nombre d’ordinateurs utilisés, nombre d’actions administratives effectuées, etc.)
  • Les caractéristiques des ordonnances incluses dans le lot (ex: nombre d’ordonnances, utilisation de order sets, nombre de represcriptions de médicaments, nombre d’ordonnances « stat », etc.)
  • Les données contextuelles (type de prescripteur, spécialité du prescripteur, moment de prescription, etc.)

Quatre modèles de machine learning ont été construits avec ces variables comme prédicteurs et l’intervention du pharmacien comme issue: deux modèles de régression logistique, le premier avec régularisation L1 et le second avec régularisation L2, une forêt aléatoire et un modèle avec boosting XGBoost. Les données ont été divisées aléatoirement en jeux d’entraînement, validation et test. Une stratégie de recherche de paramètres par grid search avec validation croisée avec a été utilisée pour déterminer les hyperparamètres des modèles. La technique SMOTE a été utilisée pour gérer le débalancement de classes (les ordonnances sans intervention étant plus fréquentes).

Le modèle XGBoost s’est avéré le plus performant. Cependant, l’aire sous la courbe précision-rappel était plutôt faible à 0,439, indiquant une performance modeste du modèle. Malgré tout, en analysant l’explicabilité du modèle, les auteurs ont pu identifier que les ordonnances de résidents, les nombre d’ordonnances de « réconciliations » (on comprend liées au bilan comparatif) et les ordonnances en grand nombre dans un même lot, étaient plus susceptibles de requérir une intervention, ce qui concorde avec ce que j’observe en pratique.

Il est dommage que les modèles développés par les auteurs étaient aussi peu performants. Néanmoins, l’approche des auteurs qui ciblait des marqueurs de la charge cognitive du prescripteur comme prédicteurs des erreurs dans les ordonnances est très intéressante. J’apprécie également le fait que les auteurs ont tenté de générer un modèle explicable et que leur processus d’élaboration du modèle était très clair; dans d’autres publications décrivant des modèles visant à prédire les erreurs de prescription, certains éléments peuvent être flous. J’espère voir davantage de publications sur ce sujet de la part de ce groupe.

Un modèle prédictif des ruptures d’approvisionnement

Le numéro de juillet 2021 de l’AJHP contenait un article décrivant le développement et l’évaluation d’un modèle prédictif des ruptures d’approvisionnement en médicaments.

Le contexte de réalisation de l’étude est un peu mal décrit, mais je crois comprendre que les auteurs sont des pharmaciens d’un centre universitaire américain situé en Caroline du Nord et qu’ils ont réalisé cette étude à partir de données disponibles publiquement et des données internes de leur institution.

Ils ont construit un jeu de données à partir des ruptures d’approvisionnement observées dans leur centre en 2016 et 2017 et ont catégorisé chaque médicament à l’aide d’une issue dichotomique soit la présence d’une rupture durant la période d’observation ou son absence. Ensuite, ils ont associé à chaque médicament des variables potentiellement prédictives d’une rupture identifiées à partir d’une revue de littérature. Ces données ont été extraites de diverses sources énumérées dans l’article. Cependant, certaines données n’ont pu être obtenues (par exemple les données relatives aux méthodes de fabrication du médicament) et ont donc été exclues.

Un modèle de régression logistique a été construit. Les variables ont d’abord été testées individuellement pour inclusion dans le modèle multivarié, cependant certaines variables ont été jugées prioritaires par les auteurs et ont été incluses peu importe leur effet dans le modèle univarié. Les autres variables ont été incluses dans le modèle multivarié selon la présence d’une corrélation dans le modèle univarié pour chacune. Le modèle a été testé à l’aide d’une validation croisée à 10 blocs (10-fold cross-validation), et la mesure de performance rapportée était la moyenne de performance sur le jeu de validation de chacun des 10 blocs. Les mesures de performance « classiques » d’un modèle prédictif dichotomique (aire sous la courbe ROC et mesures associées au tableau 2×2) ont été rapportées.

Les variables candidates identifiées à partir de la revue de littérature étaient d’abord ceux liées au manufacturier (équipement désuet, contamination des matières premières, etc.), ou liées aux catastrophes naturelles compromettant la fabrication ou le transport; celles-ci correspondent aux données exclues car non disponibles ou non prévisibles. Les données incluses étaient le nombre de manufacturiers, la disponibilité de formes par voie orale, injectable, ou les deux, la présence de génériques, la classe thérapeutique, le statut de drogue contrôlée selon les normes américaines, et le statut de médicament orphelin. On note que ce que les auteurs entendent par « médicament » est mal défini dans l’article, parlent-ils d’un produit précis (comme on pourrait imaginer en parlant de nombre de manufacturiers) ou d’une molécule (comme on pourrait imaginer en parlant de disponibilité par voie orale ou injectable) ? Ont-ils regroupé différents formats ou teneurs d’une même molécule (comme on aurait tendance à substituer de l’un à l’autre en cas de rupture) ?

1588 médicaments ont été inclus, dont 71 ont été exclus en raison de données manquantes. 1096 (72,2%) n’ont pas eu de ruptures, les autres en ont eu une (on voit ici un débalancement de classes, nous y reviendrons). Les classes thérapeutiques les plus fréquentes étaient « autre » (44,6%), suivi des agents cardiovasculaires (15%) et antimicrobiens (13,6%). Le nombre de manufacturiers moyen par médicament était de 4,9. Les facteurs significatifs associées à la présence de rupture en régression univariée étaient la voie intraveineuse seulement, les classes antimicrobien, analgésique, électrolyte, anesthésique ou cardiovasculaire et la présence uniquement de manufacturiers génériques. En régression multivariée, les facteurs associés aux ruptures étaient la voie intraveineuse seulement ou la présence à la fois de produits oraux et intraveineux, et les classes antimicrobien, analgésique, électrolyte, anesthésique ou cardiovasculaire.

Les auteurs affirment que la performance du modèle était bonne, avec une sensibilité de 0,71, une spécificité de 0,93, valeur prédictive positive de 0,80, et valeur prédictive négative de 0,90. L’aire sous la courbe ROC était 0,93 et l’exactitude 0,97.

L’objectif de cette étude est définitivement intéressant, car il serait très utile de pouvoir prédire à l’avance qu’un médicament sera en rupture de stock. Cependant, malgré les chiffres de performance qui apparaissent à prime abord satisfaisants, je ne crois pas que les auteurs aient réussi à atteindre réellement leur objectif ni à bien démontrer la performance de leur modèle. Gardons d’abord en tête que l’étude n’a porté que sur un jeu de données construit pour l’étude et n’a fait l’objet d’aucune évaluation en pratique réelle, et la littérature ne manque pas d’exemple de modèles prometteurs en théorie qui ont échoué en pratique pour une variété de raisons.

Au niveau méthodologique, on peut se demander pourquoi seulement la régression logistique a été testée. En effet, il s’agit d’un modèle simple et définitivement à inclure dans une liste de modèles à tester, et d’ailleurs offrant une performance surprenante en comparaison à certains modèles beaucoup plus complexes, mais il aurait été relativement facile de tenter plusieurs modèles à prédiction dichotomique et de comparer les résultats (arbres de décision, machine à vecteurs de support). Il est aussi dommage que seule la performance globale du modèle ait été rapportée. En effet, comme les médicaments sans rupture de stock étaient majoritaires dans les données, il est connu que les mesures comme l’aire sous la courbe ROC peuvent apparaître erronément élevées en raison d’une tendance à prédire la classe majoritaire. Une statistique comme l’aire sous la courbe précision-rappel aurait été préférable, ou au minimum des chiffres de performance découpés par classe avec ou sans rupture. Enfin, il est dommage que le code est les données ne soient pas disponibles, il est ainsi impossible d’évaluer de manière indépendante ce que les auteurs affirment, et il s’agit de données et de code que j’imagine relativement simples et faciles à sécuriser afin de les rendre partageables.

De façon plus générale, je trouve que la manière dont le modèle est conçu est problématique. Essentiellement, les auteurs arrivent à un modèle qui prédit si un médicament est à risque d’être en rupture de stock en fonction de ses caractéristiques « de base », sans tenir compte de sa chaîne logistique. Par exemple, une donnée est le nombre de manufacturiers plutôt que l’identité de ces manufacturiers. Donc, à travers le temps dans une utilisation pratique, ce modèle ne pourrait arriver à prédire avec succès une rupture pour un médicament que si des médicaments avec des caractéristiques de base similaires se sont retrouvés aussi en rupture. De plus, avec la stratégie de validation croisée sans égard au temps (il n’est pas mentionné précisément dans l’article quelle stratégie de division en blocs a été utilisée mais comme il s’agit de 10 blocs on peut assumer que c’est une stratégie avec division aléatoire des données sans égard au temps), on peut se retrouver avec des effets de contamination. Si par exemple durant une période, plusieurs médicaments du même manufacturier se sont retrouvés en rupture et que ceux-ci avaient des caractéristiques similaires (on peut imaginer par exemple plusieurs électrolytes intraveineux produits par le même manufacturier en rupture en même temps, ce que l’on a vécu à quelques reprises dans le passé), le modèle peut avoir été contaminé si des données de cette période se sont retrouvées à la fois dans les blocs d’entraînement et de validation, offrant ainsi une bonne performance de prédiction, alors qu’en réalité le modèle n’aurait jamais vu venir cette rupture.

Bref, c’est une étude avec un objectif intéressant, mais l’aspect expérimental comporte tellement de lacunes et de raccourcis méthodologiques que j’ai de la difficulté à croire que le modèle ainsi élaboré offrirait une performance satisfaisante en pratique.