Comment fonctionnent les technologies de transcription de réunions ?

Vous pensez qu’il est plus simple de développer une solution de transcription de réunions qu’un système de reconnaissance vocale pour pilotes de ligne ? Détrompez-vous.
Par
Les nouvelles technologies automatisent la transcription des réunions

Dans les années 1990, bon nombre de nos interlocuteurs s’imaginaient qu’il était particulièrement complexe de développer des solutions de reconnaissance vocale pour pilotes de ligne, celles-ci étant destinées à des environnements bruyants. Mais la plupart des bruits perceptibles dans une cabine de pilotage sont prévisibles (comme ceux du moteur et du vent, notamment) et peuvent donc être filtrés de manière relativement simple. Sans compter que le microphone utilisé est fixe et positionné très près du pilote (dans le masque à oxygène, par exemple), ce qui facilite davantage encore la âche.

A l’inverse, certaines technologies simples en apparence peuvent être autrement plus complexes à mettre au point. C’est le cas des logiciels de transcription automatique de réunions, par exemple. Comment l’expliquer ?

La conception d’une telle solution nécessite de prendre en compte de nombreuses variables. Pour commencer, il faut que le logiciel puisse identifier et situer les intervenants. Or les salles de conférence sont généralement équipées de plusieurs microphones, dont certains peuvent être installés relativement loin des intervenants, donnant lieu à des problèmes de réverbération du son (ou d’écho). Difficile alors d’identifier ces intervenants et de les situer par rapport au microphone. Pour ce faire, le système doit filtrer les bruits de fond et les échos pour se focaliser uniquement sur le locuteur, comme le fait notre cerveau lors d’une discussion dans un environnement bruyant, sans même que nous en soyons conscients (un phénomène que l’on nomme l’effet cocktail party). C’est pourquoi nous avons recours à des technologies de beamforming, idéales pour les environnements dotés de plusieurs microphones, mais aussi pour les véhicules et les habitations.

Le logiciel doit ensuite être en mesure de distinguer les différents intervenants durant leurs échanges (ce qui suppose une adaptation constante du beamforming). Pour ce faire, les développeurs emploient un système de segmentation du flux audio en locuteurs, qui structure le discours en tours de parole. Associé à une technologie de biométrie vocale, habituellement utilisée pour authentifier les locuteurs, il peut également distinguer les locuteurs connus au sein d’un groupe. La segmentation du flux audio permet en outre au logiciel d’affiner le profil vocal de chaque interlocuteur pour gagner en précision de reconnaissance, à l’instar de notre logiciel Dragon.

Autre éventualité à laquelle il faut parer : l’intervention simultanée de plusieurs locuteurs. Car si les réunions doivent, en principe, obéir à une certaine logique de prise de parole, il n’est pas rare que celle-ci soit ignorée. L’utilisation de plusieurs microphones s’impose, ici encore, pour distinguer les différents intervenants.

Ce n’est qu’une fois que les intervenants (et leurs caractéristiques vocales) sont identifiés et distingués que le travail de transcription peut commencer. Il faut alors prendre en compte une nouvelle variable : le vocabulaire. Le logiciel doit intégrer le vocabulaire le plus riche possible pour transcrire efficacement les réunions, quelle que soit la thématique, et être capable d’anticiper chaque terme en fonction du contexte. C’est tout l’objectif de nos travaux de modélisation du langage basée sur les réseaux neuronaux profonds.

Ces outils ont récemment permis aux spécialistes de la capture et de la transcription du « discours ambiant » de Nuance de battre tous les records de performance publiés jusqu’alors. Ils ont ainsi pu mettre au point Nuance Transcription Engine, une solution principalement destinée à la transcription de conversations entre agents de centres d’appel et clients visant à améliorer la connaissance client des entreprises. NTE peut toutefois être utilisée dans un large éventail d’environnements, pour capturer des échanges entre plusieurs locuteurs.

Si la tâche est plus complexe qu’il n’y paraît, nous disposons aujourd’hui de quantité de technologies sophistiquées qui nous permettent de transcrire des réunions avec d’excellents résultats. Le transcripteur du futur est déjà là.

Sources:

Étiquettes : , , ,