Le rôle du deep learning dans le moteur de reconnaissance vocale Dragon

Chaque individu communique à sa manière, avec des intonations ou encore des habitudes de langage qui lui sont propres. Dans certains cas, les particularités d’élocution des utilisateurs peuvent être précieuses pour améliorer la performance des solutions de reconnaissance vocale, grâce au deep learning et aux réseaux neuronaux notamment, comme le prouvent nos nouvelles offres Dragon Individual et Dragon Legal.
Par
Dragon exploite le deep learning pour gagner en précision de reconnaissance vocale.

Chaque individu communique différement, avec des intonations ou encore des habitudes de langage qui lui sont propres. Dans un précédent article sur notre blog, nous avons vu comment l’analyse du langage et du discours tenant compte des diverses variables de l’élocution (accents, âge, etc.) permet aux systèmes de reconnaissance vocale de fonctionner efficacement avec tous types de locuteurs, autrement dit d’être « indépendants du locuteur ».

Mais il existe des cas où les particularités d’élocution des utilisateurs peuvent être précieuses pour améliorer la performance des solutions de reconnaissance vocale. Les systèmes destinés à un seul utilisateur, tels que nos solutions Dragon Individual et Dragon Legal, permettent d’aller au-delà de la reconnaissance vocale indépendante du locuteur, pour s’adapter à chacun. A titre d’exemple, Dragon :

  • s’adapte au vocabulaire de l’utilisateur via l’analyse des textes précédemment créés par ce dernier, en enrichissant sa base de vocabulaire par des termes personnalisés et en retenant les termes et les formulations que l’utilisateur emploie régulièrement ;
  • optimise à chaque utilisation son modèle acoustique (en mémorisant la prononciation des mots) à partir de quelques secondes de dictée seulement. Cette technique lui permet également de s’adapter à toute modification de la voix de l’utilisateur, due à un rhume ou à un changement de microphone ou d’environnement, par exemple ;
  • enrichit sa base de connaissances hors ligne, lors de la création du profil vocal (étape facultative) ou en fin de session de dictée. Il adapte ainsi progressivement ses modèles de reconnaissance aux particularités d’élocution de l’utilisateur.

Revenons justement sur ce dernier point. Dragon utilise des réseaux neuronaux profonds de bout en bout du processus d’analyse syntaxique d’une part, tenant compte de la fréquence à laquelle les termes sont utilisés et des associations de mots les plus fréquentes, et d’analyse acoustique d’autre part, déchiffrant les phonèmes, autrement dit la plus petite unité distinctive du langage.

Ses solides modèles sont le fruit de l’analyse d’innombrables données dans nos laboratoires. D’ailleurs, si les réseaux neuronaux commencent tout juste à sortir de l’ombre bien qu’ils aient été inventés au 20e siècle, c’est notamment parce que le processus de rodage suppose des systèmes de traitement de données particulièrement performants. Nuance utilise pour sa part de nombreux processeurs graphiques. A l’origine, ils se destinaient aux applications graphiques, de type jeux vidéo. Mais il s’avère que le traitement d’images et le rodage des réseaux neuronaux profonds reposent sur des mécanismes assez similaires, à savoir réaliser des analyses relativement simples d’une multitude de données en simultané, tâche qu’exécutent parfaitement les cartes graphiques. Dans notre centre de données, nous utilisons plusieurs cartes graphiques en parallèle pour accélérer le rodage.

Mais qu’en est-il chez nos clients ? La personnalisation des réseaux neuronaux profonds (qui composent le modèle acoustique) en fonction du profil vocal des utilisateurs s’effectue sur leur PC, Mac ou ordinateur portable, tout aussi rapidement, grâce à un échantillon de données limité, dont l’analyse mobilise moins de ressources de calcul.

L’adaptation de ce processus à une exécution sur un PC ou un ordinateur portable est l’aboutissement de nombreuses années d’innovation dans la reconnaissance vocale et le machine learning, dont chacun peut désormais constater l’efficacité grâce à nos logiciels Dragon haute précision, entièrement personnalisables pour chaque utilisateur et profil vocal.

Sources:

Profitez du deep learning avec Dragon

Gagnez en productivité grâce à la nouvelle suite de solutions professionnelles de reconnaissance vocale Dragon avec technologie de deep learning exclusive, plus précise, rapide et efficace que jamais.

Decouvrez

Étiquettes : , , , , ,