Un seul article cet semaine, car il fait mal au cerveau.
Cependant, il y a une lecture préalable si vous n’êtes pas familiers avec le machine learning et la terminologie associée (merci à @hamstav pour l’article).
Lecture préalable
L’article vient de la revue Circulation et présente les bases du machine learning (apprentissage-machine ou apprentissage artificiel en français selon le Grand dictionnaire terminologique) tel qu’appliqué aux sciences de la santé. En (très) résumé, il s’agit d’une technique utilisant la puissance de calcul d’ordinateurs pour établir des modèles statistiques très élaborés afin de relier plusieurs variables (appelés facteurs) à une issue selon des relations complexes.
L’intérêt pour cette technique vient, depuis quelques années, de l’augmentation impressionnante de la puissance de calcul des ordinateurs. En effet, il est maintenant possible d’élaborer des modèles prenant en compte un grand nombre de facteurs, et même de découvrir de nouveaux facteurs, avec des relations plus complexes que celles des techniques statistiques classiques (la régression logistique ou la régression de Cox, par exemple).
Grâce à différents algorithmes, un ensemble de données « test » est examiné par l’ordinateur qui tente de dégager des relations entre les facteurs et les issues. Le résultat est un ensemble de modèles qui peuvent être utilisés séparément ou combinés pour prédire l’issue d’intérêt. Par la suite, le modèle peut être appliqué à des données qui n’ont pas été examinées dans la phase d’apprentissage pour vérifier si les prédictions s’avèrent fiables, voire même pour effectuer des analyses en pratique clinique. Un modèle avec une bonne performance peut, tel que mentionné dans l’article, être utilisé pour analyser des images provenant de biopsies, déterminer le risque de développer une maladie, ou prédire la réponse à un médicament, par exemple.
En dehors des sciences de la santé, le machine learning est utilisé par exemple pour la reconnaissance d’images ou de voix. Il existe même des compétitions de machine learning.
L’article de la semaine: Suède, Machine learning et pharmacovigilance
Il s’agit d’une étude rétrospective présentée à la conférence IEEE International Conference on Bioinformatics and Biomedicine 2014. L’étude avait pour objectif d’établir si les données provenant de dossiers cliniques informatisés pouvaient aider à prédire les effets indésirables aux médicaments à l’aide de techniques de machine learning.
Les auteurs ont utilisé une banque de données provenant du dossier clinique informatisé du Karolinska University Hospital à Stockholm, contenant des informations sur environ 700 000 personnes de 2009 à 2010. L’ensemble de données comprenait des diagnostics, des administrations de médicaments, des mesures cliniques, des résultats de laboratoires, et des notes cliniques en texte libre. Les diagnostics étaient encodés selon l’ICD-10, et les médicaments selon l’ATC.
Pour la construction des ensembles de données de test, les 27 codes ICD reliés aux effets indésirables aux médicaments les plus fréquents dans la banque de données ont été sélectionnés, et 27 ensembles de données ont été construits où des patients ont été classés selon la présence ou l’absence de l’effet indésirable associé à chaque code. Les patients classés comme n’ayant pas présenté d’effet indésirable devaient avoir un code ICD pour un diagnostic similaire, mais non relié à un effet indésirable (par exemple mal de tête causé par un médicament vs. mal de tête causé par autre chose).
L’algorithme d’apprentissage utilisé principalement dans l’étude était le random forest, mais d’autres algorithmes ont aussi été testés. Les mesures de performance de l’algorithme étaient l’exactitude (accuracy) et l’aire sous la courbe ROC. Les paramètres analysés comme facteurs étaient les codes cliniques (médicaments et diagnostics) et les mesures cliniques (température, pression artérielle, etc). Ces deux types de données ont été analysées seules, puis en combinaison.
Les résultats sont (très) complexes, mais on en comprend globalement que les codes cliniques sont de meilleurs outils que les mesures cliniques pour prédire les effets indésirables. Cependant, on peut légèrement améliorer la performance en combinant les mesures et les codes, en particulier pour certains types d’effets indésirables où cela peut être pertinent, comme par exemple l’anémie induite par un médicament.
Mon interprétation
Il s’agit d’une étude complexe et dont la répercussion clinique n’est vraiment pas évidente, mais je la trouve intéressante pour trois raisons:
- D’abord, elle illustre comment le machine learning, qui est déjà en voie de s’intégrer à des spécialités comme par exemple la pathologie ou l’oncologie, peut avoir une rôle en pharmacie.
- Ensuite, elle laisse penser que cette technique pourrait être dans l’avenir un outil précieux pour supporter le pharmacien dans son travail de pharmacovigilance. Par exemple, on peut imaginer des logiciels d’aide à la décision qui apprendraient les facteurs de risque de développer un effet indésirable à partir de dossiers cliniques informatisés de grands centres hospitaliers, ou même de dossiers nationaux.
- Finalement, elle illustre comment le codage des données cliniques, dont j’ai déjà parlé précédemment, peut devenir un outil très puissant s’il est appliqué de manière systématique à un grand ensemble de données.