Diagnostic ou traitement, ChatGPT est loin de faire un bon médecin

Par
Publié le 17/08/2023

Crédit photo : GARO/PHANIE

ChatGPT n'est pas prêt de détrôner l'œil et l'art du médecin : c'est ce qui ressort d'une étude réalisée notamment* par le Dr Jérôme Lechien, chirurgien ORL, et le Pr Stéphane Hans, chef de service ORL de l’hôpital Foch (Suresnes), qui a mis l'Intelligence artificielle (IA) au défi de proposer des diagnostics, examens complémentaires, et traitements, à partir de vrais tableaux cliniques. Résultat : si elle peut émettre des diagnostics plausibles dans plus de 63 % des cas, elle ne saurait se substituer au discernement du médecin pour proposer une prise en charge pertinente. 

Les auteurs, dont l'article vient d'être accepté dans les « European Archives of Oto-Rhino-Laryngology » ont soumis à ChatGPT les dossiers médicaux de 45 patients recrutés dans deux services belges d'oto-rhino-laryngologie : symptômes, résultats de l'examen clinique, antécédents, et médicaments. Et de demander à l'IA de proposer des diagnostics principal et différentiels, des examens complémentaires et des traitements. Ses analyses ont été ensuite comparées à celles d'un oto-rhino-laryngologue - elles-mêmes revues par deux seniors, à partir des recommandations des sociétés savantes. 

Diagnostic plausible dans 63,5 % des cas, traitements pertinents à 22 %

Deux médecins ont ensuite analysé les résultats des performances de l'IA à l'aide d'un outil clinique développé lors de cette étude, l'Artifical intelligence performance instrument (AIPI). 

En moyenne, ChatGPT propose un diagnostic principal correct ou plausible dans 63,5 % des cas (dans 56 % selon le premier médecin juge, 71 % pour le second). Il n'était pas plausible dans 28 % des cas ; une proportion qui passe de 31 % à 42 % pour les diagnostics différentiels. 

Les examens complémentaires proposés par l’IA afin de confirmer le diagnostic étaient pertinents et totalement ou partiellement nécessaires dans seulement 29 % des cas. Quant aux traitements, ils étaient pertinents et nécessaires que dans 22 % des cas, et pertinents mais incomplets dans 16 % des cas. 

Risques de confusion pour les médecins...Et les patients 

« Le fonctionnement de la version actuelle de ChatGPT se rapproche plus de celui d'une encyclopédie électronique qui proposerait une liste de diagnostics et examens potentiels que de celui d'un avatar de médecin qui prendrait en compte les spécificités du patient », lit-on. Et d'en vouloir pour preuve la proposition faite d'une IRM du cou pour une personne porteuse d'un pacemaker. Un constat qui rejoint les appels de plusieurs instances (comme le Comité consultatif national d'éthique, la Commission européenne, ou encore la Société française de radiologie) à garder un contrôle humain sur l'IA. 

Sans nier l'intérêt de l'IA, les auteurs mettent enfin en garde contre les risques de confusion qu'elle pourrait susciter chez les patients qui y recourraient avant de consulter un médecin. 

« De futures recherches sont nécessaires pour explorer le potentiel de l’IA en médecine et lui trouver une place permettant d’améliorer la qualité des soins donnés aux patients » concluent les chercheurs, en soulignant l'intérêt de leur outil AIPI pour évaluer l'efficacité de l'IA.

 

* En collaboration avec l'hôpital EpiCURA, l’Université de Mons et le CHU Saint-Pierre (Belgique).


Source : lequotidiendumedecin.fr