Un patch restitue la parole en décodant les mouvements des muscles du larynx

Par

Publié le 15/03/2024

Article réservé aux abonnés

Le dispositif a montré une précision de 95 % dans la détection et le décodage des mouvements de larynx lorsque les participants énonçaient une phrase sans émettre de son. Il offrirait à des patients dysphoniques une assistance à la parole.

Crédit photo : GARO/PHANIE

Une équipe de l’Université de Californie (UCLA) a publié dans Nature Communications un article présentant un système embarqué (« wearable ») de détection/activation de la phonation. Ce petit patch de 30 x 30 mm pour 1,5 mm d’épaisseur et 7,2 g, positionné sur la peau au niveau de la gorge, a été capable de capter les mouvements des muscles du larynx et de les transformer en signaux électriques. Une intelligence artificielle (IA) les a ensuite décodés et restitués en signaux vocaux avec une précision de près de 95 %. L’équipe a également conçu le dispositif pour transposer ensuite les signaux vocaux en sons audibles.

Avec ou sans sollicitation des cordes vocales

Huit participants ont aidé l’équipe à tester puis entraîner leur modèle de machine learning. Ainsi, les scientifiques ont mis à l’épreuve le dispositif en faisant énoncer aux volontaires « Go Bruins », soit en faisant vibrer leurs cordes vocales et donc en émettant un son, soit sans les faire vibrer. Ils ont ainsi pu constater que les mouvements des muscles du larynx captés par le patch étaient aussi bien traduits en signaux électriques puis vocaux, que les cordes soient sollicitées ou non.

Cependant, l’amplitude du signal était légèrement moins ample sans les vibrations des cordes, « ce qui pourrait s’expliquer par le fait que les vibrations des cordes demandent un mouvement des muscles plus intenses », expliquent les auteurs. Il y avait également une perte du signal haute fréquence quand les cordes ne vibraient pas, une hypothèse que l’équipe avait posée, les hautes fréquences ne pouvant se passer des cordes vocales. Cela n’affectait pas, pour autant, la détection des syllabes.

Pour aller plus loin, les scientifiques ont testé le dispositif dans plusieurs situations particulières. Ils ont ainsi fait prononcer « UCLA » aux participants en les faisant sauter, courir, marcher ou rester immobiles. Dans tous les cas, le dispositif a été capable de distinguer les syllabes et a restitué les bons signaux sonores. Enfin, les huit participants ont répété cinq phrases choisies par l’équipe afin d’entraîner l’intelligence artificielle.

L’art japonais du pliage en guise d’inspiration

Le dispositif sous forme de patch comporte deux parties : le composant « détection » qui sert à capter les mouvements du muscle pharyngé et à le traduire en signaux électriques, et le composant « activation » qui transforme les signaux vocaux décodés par l’IA en vrais sons. Il se compose d’un assemblage de trois micro-couches : une couche de polyméthylsiloxane (PDMS), un matériau élastique et isolant, une couche de PDMS mélangé à des micro-aimants, qui permet de générer les signaux électriques à partir des variations du champ magnétique, et une couche de bobines de cuivre, qui confère une flexibilité.

La couche contenant les micro-aimants est au cœur de l’innovation, puisque les chercheurs l’ont fabriquée en s’inspirant du kirigami, une technique de pliage japonais, afin de lui conférer sensibilité et extensibilité. Le tout permet au patch de s’auto-alimenter et de se déformer horizontalement et verticalement pour bien suivre tous les mouvements des muscles lors de la phonation. Les auteurs précisent que le patch est waterproof (résistant à la perspiration) et que sa température n’augmente pas, même durant 40 minutes d’utilisation. Et de souligner son intérêt par rapport aux dispositifs déjà existants dont « la nature non étirable de leurs matériaux posait une réelle limitation ». Ces précédents systèmes ne détectaient que les mouvements verticaux de la gorge, « négligeant les déformations parallèles ayant lieu lors de la phonation ». Ce nouveau dispositif est ainsi capable de produire un son audible à 1 m, « la distance habituelle d’une conversation », précise l’équipe, avec un niveau de pression acoustique de 40 dB - la parole humaine se situant généralement entre 40 et 60 dB - et un temps de réponse de 40 ms.

Pour l’équipe de bio-ingénieurs, ce patch permettrait de venir en aide aux personnes souffrant d’une dysphonie consécutive à un trouble fonctionnel des cordes vocales ou une opération du larynx, par exemple, en restaurant leur voix sans solliciter les cordes vocales. Non invasif, il pourrait améliorer la qualité de vie des patients le temps de la guérison et apporter une alternative aux dispositifs existants comme les talk box ou les électrolarynx.