Un groupe de l’Université Stanford aux États-Unis a publié dans le JAMIA d’octobre 2020 une étude randomisée ouverte décrivant une évaluation de leur système de prédiction et de recommandation d’ordonnances. Le même article avait fait l’objet d’une pré-publication sur medRxiv en février 2020. J’avais très brièvement parlé des travaux de ce groupe en août 2019, principalement parce que leurs publications majeures dataient déjà de quelques années, mais il semble qu’ils se remettent à publier. Je parlerai plus tard d’autres travaux récents de ce groupe.
L’objectif de l’étude était de comparer les ordonnances faites par des médecins dans 5 situations cliniques simulées de médecine interne, en utilisant le système de prédiction et recommandation d’ordonnances comparativement à la pratique standard, soit une barre de recherche classique. L’issue primaire était le score d’adéquation clinique (une cote de -10 à +10 attribuée à chaque ordonnance, un score plus élevé indiquant une ordonnance plus appropriée) des ordonnances tel que coté par un panel de 4 médecins ayant évalué chaque ordonnance émise par les participants à l’étude. Les scores ont d’abord été établis indépendamment par chaque membre du panel puis les divergences ont été résolues par consensus. Les issues secondaires étaient essentiellement des façons différentes d’évaluer les scores et la correspondance des résultats de recherche aux ordonnances placées. Un sondage après la participation à l’étude a aussi été réalisé. Les participants étaient randomisés de manière à ce que 3 des 5 scénarios choisis au hasard pour chaque participant utilisent le système et 2 la recherche classique. Chaque scénario était programmé de manière à ce que le patient s’améliore avec des ordonnances adéquates et se détériore avec des ordonnances inadéquates.
L’outil de prédiction et recommandation d’ordonnances est un système basé sur des statistiques de cooccurrence qui apprend quelles ordonnances sont statistiquement probables en fonction d’ordonnances qui ont déjà été placées pour un patient. Ce modèle a été entraîné à partir d’une base de données comportant des ordonnances placées entre 2009 et 2014. Les prédictions du système étaient affichées à l’utilisateur après que celui-ci ait placé des ordonnances pour le patient, de manière à offrir d’emblée des recommandations d’ordonnances contextuellement appropriées plutôt que laisser l’utilisateur chercher dans l’ensemble des ordonnances disponibles à l’aide d’une barre de recherche. Des captures d’écran sont disponibles dans l’article.
43 médecins avec une expérience médiane de 3 ans (24 résidents et 19 patrons) ont participé à l’étude entre octobre 2018 et décembre 2019. Le score médian des ordonnances était de 6.2, avec une médiane de 6.5 dans le groupe avec le système de prédiction comparativement à une médiane de 6.0 dans le groupe avec recherche classique, une différence non statistiquement significative. Parmi les issues secondaires, un note un nombre total d’ordonnance plus élevé (15 contre 16, intervalle de confiance 95% 1,01-1,17), un score total plus élevé (82 contre 91, intervalle de confiance 1,01-1,12) et un nombre de clics plus faible (56 contre 49, intervalle de confiance 0,83-0,99) ont été observés dans le groupe avec le système de recommandation. Les participants à l’étude avaient une opinion positive du système, la plupart trouvant qu’un tel outil serait utile dans un contexte clinique où plusieurs ordonnances doivent être placées simultanément.
Je trouve cette étude très intéressante. J’aurais été quand même surpris de voir des ordonnances de meilleure qualité en utilisant le système, il s’agissait quand même de situations cliniques relativement communes pour lesquelles il est probable que les participants à l’étude savaient très bien ce qui devait être prescrit et étaient peu susceptibles de prescrire des choses très inadéquates. Il me semble donc ambitieux que les auteurs se soient attendus à de meilleures ordonnances avec leur système, d’autant plus que sa performance telle que décrite dans la publication originale en 2016 était correcte, mais pas spectaculaire. Je suis content de voir une diminution du nombre de clics avec le système de prédiction, indiquant des résultats de recherche améliorés, cependant l’effet semble quand même modeste. Ce résultat est probablement largement dépendant de la configuration du système de prescription. Par exemple, des ordonnances pré-rédigées bien conçues pour ces situations cliniques pourraient, j’imagine, réduire drastiquement le nombre de clics, c’est un peu étrange que la discussion en parle peu sachant que ce groupe s’est beaucoup intéressé aux order sets dans le passé.
J’ai l’impression que l’avantage principal d’un tel système pourrait être non pas d’impacter significativement la qualité des ordonnances, mais plutôt de réduire le risque de commettre des erreurs de prescription de type « look-alike » en sélectionnant des options erronées dans des résultats de recherche basés sur des chaînes de caractères. En effet, si le système peut privilégier les résultats contextuellement appropriés, les ordonnances peu applicables au contexte pourraient être placées plus bas dans les résultats, même si la chaîne recherchée s’y trouve, ou du moins être accompagnées d’un avertissement. Évidemment, ce genre d’erreur est rare et il est donc probablement difficile de démontrer un avantage dans une étude à petite échelle. Cependant, dans une étude de simulation, il pourrait être possible d’élaborer un scénario où le risque de choisir une ordonnance inappropriée mais d’apparence similaire est plus élevé. Bref, je pense que malgré les résultats peu convaincants de cet article, l’approche présentée a du potentiel et ne devrait pas être écartée.
Une réflexion sur “Évaluation d’un système de prédiction d’ordonnances pour remplacer la recherche manuelle lors de prescription électronique”