Reconnaisance vocale – Principe de fonctionnement

L’analyse du signal de la parole

Au départ d’un son émis par un locuteur, celui-ci est capté par un microphone. Ce signal vocal est numérisé à l’aide d’un convertisseur analogique-numérique. Viens alors la phase d’analyse du signal de la parole. Cette phase consiste à paramétrer le signal vocal du locuteur permettant d’obtenir une “empreinte” caractéristique du son (Vecteur acoustique). Chacune de ces empreintes constituent une représentation compacte et de courte durée du spectre du signal vocal (en générale 10 msec). Prenons comme exemple une phrase contenant une dizaine de mot et qui aurait une durée de 3 secondes. Elle pourrait être représentée par 300 vecteurs acoustiques. Donc un mot serait toujours dans notre exemple représenté par une trentaine de vecteurs acoustiques (Features).

La reconnaissance de mots simples

L’absence dans le signal vocal d’indicateurs sur les frontières de phonèmes et de mots constitue une difficulté majeure de la reconnaissance de la parole. De ce fait, la reconnaissance de mots prononcés artificiellement de façon isolée (c’est à dire que tous les mots prononcés sont séparés par des silences de durées supérieures à quelques dixièmes de seconde) représente une simplification notable du problème. De plus, on peut considérer que d’une personne à l’autre, un mot soit prononcé de façon différente. Là aussi, une distinction s’impose.

Le système monolocuteur (utilisable par un seul locuteur) est caractérisé par la technique d’apprentissage, où une seule et même personne doit dicter un ensemble de mots, ce qui permet d’optimiser le taux de reconnaissance et d’étendre le vocabulaire utilisable. Inconvénient, seule la personne ayant fourni son empreinte vocale (lors de la phase d’apprentissage) peut travailler.

Le système multilocuteur (utilisable par plusieurs locuteurs) qui utilise une base de données contenant des empreintes moyennes autorisant la reconnaissance de plusieurs voix. Inconvénient, le système n’est pas doté de capacités d’apprentissage et le nombre de mots est plus limité.

Deux approches, l’une plus globale, l’autre plus analytique permettent d’appréhender la reconnaissance des mots.

Dans l’approche globale, l’unité de base sera le plus souvent le mot considéré comme une entité globale, c’est à dire non décomposée. L’idée de cette méthode est de donner au système une image acoustique de chacun des mots qu’il devra identifier par la suite. Cette opération est faite lors de la phase d’apprentissage, où chacun des mots est prononcé une ou plusieurs fois. Cette méthode a pour avantage d’éviter les effets de coarticulation, c’est à dire l’influence réciproque des sons à l’intérieur des mots. Elle est cependant limitée aux petits vocabulaires prononcés par un nombre restreint de locuteurs.

L’approche analytique, qui tire parti de la structure linguistique des mots, tente de détecter et d’identifier les composantes élémentaires ( phonèmes , syllabes, …). Celles-ci sont les unités de base à reconnaître. Cette approche a un caractère plus général que la précédente : pour reconnaître de grands vocabulaires, il suffit d’enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base.
Pour la reconnaissance de mots isolés à grand vocabulaire, la méthode globale ne convient plus car la machine nécessiterait une mémoire et une puissance considérable pour respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu à l’ensemble des mots du dictionnaire. Il est de plus impensable de faire dicter à l’utilisateur l’ensemble des mots que l’ordinateur a en mémoire. C’est donc la méthode analytique qui est utilisée : les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de phonèmes.

La reconnaissance de la parole en continu : Quelques mots…

Tout d’abord, qu’est ce que la parole continue ? C’est un discours, des phrases où les mots s’enchaînent sans moyen de les séparer, contrairement aux mots isolés. En effet, dans une phrase, les mots s’enchaînent sans aucun moyen apparent de les dissocier. C’est là qu’intervient la notion de “stratégie”. La problématique à résoudre est comment découper un signal afin de reconnaître les différents mots ou phonèmes qui le compose.

Lire ou prédire ?

On distingue deux approches différentes. La première consiste à reconstituer la phrase à partir du signal, la deuxième approche consiste à prédire le mot à reconnaître: en implantant dans le système une certaine intelligence, la machine pourra “prévoir” ce qui va être dit.

Traitement de gauche à droite ou du milieu vers les côtés ?

A un moment ou à un autre, il faut bien commencer à analyser le signal lui-même. C’est là qu’on doit déterminer la stratégie latérale. Le plus naturel est de procéder par ordre chronologique. C’est ce qu’on appelle le traitement gauche – droite. Il peut cependant s’avérer intéressant d’appliquer le traitement du milieu vers les côtés. Dans cette méthode, on balaye le signal sans une analyse très poussée, on recherche des mots – clés. On accentue la recherche de quelques mots du vocabulaire. Ainsi, après l’application de cette méthode, il est possible d’appliquer une stratégie descendante pour combler les ” trous “.

On notera que c’est la combinaison de ces différentes stratégies qui permet d’obtenir les meilleurs résultats…