Diagnostic plus précis, meilleure empathie : l’IA de Google serait plus performante qu’un médecin

Par

Publié le 09/02/2024

Article réservé aux abonnés

Crédit photo : GARO/PHANIE

Google lance un pavé dans la mare. Dans une étude publiée mi-janvier, la firme américaine affirme qu’Amie (Articulate medical intelligence medical explorer), le système d’intelligence artificielle (IA)* qu’elle a récemment mis au point, serait, dans certains cas, meilleur qu’un médecin.

Pour arriver à ces conclusions, les auteurs de cette publication ont comparé les performances de cet outil d’IA – spécialisé dans le recueil d’antécédents cliniques et l’évaluation diagnostique – à celles de 20 médecins de premiers recours. L’essai croisé randomisé en double aveugle portait sur 149 scénarios d’examens cliniques réalisés à distance auprès de 20 patients standardisés issus de trois pays (Canada, Royaume-Uni et Inde).

L’ensemble des scénarios couvraient des pathologies cardiovasculaires, respiratoires, gastro-entérologiques, neurologiques, urologiques, obstétriques et gynécologiques ainsi que de la médecine interne. Les domaines de la pédiatrie ou de la psychiatrie ont été exclus de cette étude, de même que les scénarios de soins intensifs ou de gestion des cas d'hospitalisation.

Plus polie, plus à l’écoute, plus pédagogique

Via un chat textuel, les patients acteurs ont ainsi interagi à l’aveugle, et à plusieurs reprises, soit avec l’Amie soit avec un médecin généraliste mobilisé pour l’expérience. À l’issue de l’examen clinique, les patients étaient invités à évaluer leurs consultations sur plusieurs points, à l’aide d’un questionnaire. Des médecins spécialistes ont aussi noté la qualité des consultations au travers des échanges textuels qu’ils ont pu consulter, toujours sans savoir si le médecin ou le robot était aux manettes.

Résultats ? Sur la très grande majorité des points, l’IA (en rouge dans le graphique) se révèle être plus performante que l’omnipraticien (en bleu dans le graphique, PCP pour primary care physicians) et ce, sur 28 des 32 axes étudiés par les médecins spécialistes et sur 24 des 26 axes évalués par les patients acteurs.

IA Google

Sur le plan du diagnostic, les médecins spécialistes ont trouvé les déductions de l’IA plus précises et plus complètes que celles des généralistes, à informations cliniques identiques.

Ia vs médecins

En ce qui concerne la qualité de la conversation, là encore, le robot surpasse le médecin. Les patients interrogés ainsi que les médecins spécialistes s’accordent à dire qu’AMIE répond davantage à leurs attentes sur le plan de l’écoute, de la politesse ou encore du respect de la vie privée.

En outre, les patients acteurs et les médecins spécialistes ont tous jugé les compétences de l’IA supérieures à celles des généralistes sur les paramètres liés à l’empathie** et aux compétences en matière de communication.

Quelques mois après la quasi-réussite de ChatGPT à l’examen de médecine aux États-Unis, cette étude relance le débat sur l’utilisation de l’IA dans le secteur médical et sur la menace qu’elle représente (ou non) pour la profession. Sociologue à l’université Gustave Eiffel (Champs-sur-Marne) ainsi qu’au sein du laboratoire LATTS (CNRS), Alexandre Mathieu-Fritz, spécialiste de l’IA, estime « qu’on est encore très loin de s’imaginer que la machine puisse un jour remplacer le médecin ».

Même si on donne les clés de la Rolls-Royce aux praticiens, certains estimeront ne pas avoir besoin d’IA dans leurs pratiques

Alexandre Mathieu-Fritz, sociologue à l’université Gustave Eiffel

« Dès lors que l’on souhaite comparer l’intelligence humaine et l’intelligence artificielle, il faut être très prudent et attentif au risque de nourrir les utopies ou les dystopies. Il faut toujours regarder de façon précise de quelle IA on parle, voir comment elle a été conçue, sur quelle base de données, etc. Quel est l’algorithme utilisé ? Comment la machine a-t-elle appris ? Auprès de quel type de patients ? Et évidemment savoir, le cas échéant, ce qu’on met derrière le mot empathie alors qu’une machine n’a par définition pas de conscience. De grosses machines – type Watson d’IBM – ont montré des résultats époustouflants en matière de détection de formes rares de cancers. D’un autre côté, cette même machine s’est montrée assez médiocre pour classer des données cliniques par ordre chronologique. L’IA, ce peut être à la fois le meilleur, mais aussi le médiocre ou le décevant. L'IA peut se tromper », souligne le professeur.

Question de génération

Au-delà des performances, l’appropriation de ce type d’outils reste encore timide, même au sein de la profession de dermatologues. « Cela s’explique en partie en raison des lenteurs du côté des recherches et des preuves cliniques mais aussi du côté institutionnel, indique Alexandre Mathieu-Fritz. Les systèmes d’IA, notamment ceux pour la détection de mélanomes – qui peuvent parfois être très coûteux – ne sont pas encore remboursés ni tarifés par l’Assurance-maladie. Peu de dermatologues les utilisent ou alors il faut pouvoir pratiquer des dépassements d’honoraires. De manière plus générale, même si on donne les clés de la Rolls-Royce aux praticiens, certains estimeront ne pas encore en avoir besoin dans leurs pratiques. L'IA doit encore faire ses preuves. Et le temps de l'appropriation, de la pénétration dans les usages peut être long. Il faut parfois une génération pour qu'une nouvelle pratique ou une nouvelle technologie se diffuse largement dans les usages ! » À en croire le sociologue, Google a donc encore un peu de travail pour que son « Amie » devienne aussi celle des médecins.

*AMIE est fondée sur le modèle du grand langage qui utilise des procédés d’apprentissage automatique pour comprendre et générer du langage humain. Un ensemble de données de conversations cliniques retranscrites, de dossiers médicaux et de notes (cardiologie, respiratoire, radiologie, consultation en médecine générale) ont été utilisées comme données d’entraînement à la solution d’IA. Plus le système d’IA s’entraîne avec des patients, plus il est capable d’affiner ses capacités de conversation et de diagnostic.

** Sur le plan de l’empathie, l’étude précise que « l’absence de communication vocale et visuelle non verbale a pu constituer un désavantage injuste pour les cliniciens » qui, par ailleurs, ne connaissaient pas bien l’interface textuelle (chatbot) utilisé pour l’étude.