{"id":106,"date":"2016-11-08T02:35:27","date_gmt":"2016-11-08T02:35:27","guid":{"rendered":"http:\/\/imalogic.com\/blog\/?p=106"},"modified":"2016-11-08T04:15:58","modified_gmt":"2016-11-08T04:15:58","slug":"reconnaisance-vocale-generalites","status":"publish","type":"post","link":"https:\/\/imalogic.com\/blog\/2016\/11\/08\/reconnaisance-vocale-generalites\/","title":{"rendered":"Reconnaisance vocale &#8211; Principe de fonctionnement"},"content":{"rendered":"<body><h1>L\u2019analyse du signal de la parole<\/h1>\n<p>Au d\u00e9part d\u2019un son \u00e9mis par un locuteur, celui-ci est capt\u00e9 par un microphone. Ce signal vocal est <strong>num\u00e9ris\u00e9<\/strong> \u00e0 l\u2019aide d\u2019un convertisseur analogique-num\u00e9rique. Viens alors la phase d\u2019analyse du signal de la parole. Cette phase consiste \u00e0 <strong>param\u00e9trer le signal vocal<\/strong> du locuteur permettant d\u2019obtenir une \u201cempreinte\u201d caract\u00e9ristique du son (Vecteur acoustique). Chacune de ces empreintes constituent une repr\u00e9sentation compacte et de courte dur\u00e9e du spectre du signal vocal (en g\u00e9n\u00e9rale 10 msec). Prenons comme exemple une phrase contenant une dizaine de mot et qui aurait une dur\u00e9e de 3 secondes. Elle pourrait \u00eatre repr\u00e9sent\u00e9e par 300 vecteurs acoustiques. Donc un mot serait toujours dans notre exemple repr\u00e9sent\u00e9 par une trentaine de vecteurs acoustiques (Features).<\/p>\n<h2>La reconnaissance de mots simples<\/h2>\n<p>L\u2019absence dans le signal vocal d\u2019indicateurs sur les fronti\u00e8res de phon\u00e8mes et de mots constitue une difficult\u00e9 majeure de la reconnaissance de la parole. De ce fait, la reconnaissance de mots prononc\u00e9s artificiellement de fa\u00e7on isol\u00e9e (c\u2019est \u00e0 dire que tous les mots prononc\u00e9s sont s\u00e9par\u00e9s par des silences de dur\u00e9es sup\u00e9rieures \u00e0 quelques dixi\u00e8mes de seconde) repr\u00e9sente une simplification notable du probl\u00e8me. De plus, on peut consid\u00e9rer que d\u2019une personne \u00e0 l\u2019autre, un mot soit prononc\u00e9 de fa\u00e7on diff\u00e9rente. L\u00e0 aussi, une distinction s\u2019impose.<\/p>\n<p>Le syst\u00e8me <strong>monolocuteur<\/strong> (utilisable par un seul locuteur) est caract\u00e9ris\u00e9 par la technique d\u2019apprentissage, o\u00f9 une seule et m\u00eame personne doit dicter un ensemble de mots, ce qui permet d\u2019optimiser le taux de reconnaissance et d\u2019\u00e9tendre le vocabulaire utilisable. Inconv\u00e9nient, seule la personne ayant fourni son empreinte vocale (lors de la phase d\u2019apprentissage) peut travailler.<\/p>\n<p>Le syst\u00e8me <strong>multilocuteur<\/strong> (utilisable par plusieurs locuteurs) qui utilise une base de donn\u00e9es contenant des empreintes moyennes autorisant la reconnaissance de plusieurs voix. Inconv\u00e9nient, le syst\u00e8me n\u2019est pas dot\u00e9 de capacit\u00e9s d\u2019apprentissage et le nombre de mots est plus limit\u00e9.<\/p>\n<p>Deux approches, l\u2019une plus globale, l\u2019autre plus analytique permettent d\u2019appr\u00e9hender la reconnaissance des mots.<\/p>\n<p>Dans <strong>l\u2019approche globale<\/strong>, l\u2019unit\u00e9 de base sera le plus souvent le mot consid\u00e9r\u00e9 comme une entit\u00e9 globale, c\u2019est \u00e0 dire non d\u00e9compos\u00e9e. L\u2019id\u00e9e de cette m\u00e9thode est de donner au syst\u00e8me une image acoustique de chacun des mots qu\u2019il devra identifier par la suite. Cette op\u00e9ration est faite lors de la phase d\u2019apprentissage, o\u00f9 chacun des mots est prononc\u00e9 une ou plusieurs fois. Cette m\u00e9thode a pour avantage d\u2019\u00e9viter les effets de coarticulation, c\u2019est \u00e0 dire l\u2019influence r\u00e9ciproque des sons \u00e0 l\u2019int\u00e9rieur des mots. Elle est cependant limit\u00e9e aux petits vocabulaires prononc\u00e9s par un nombre restreint de locuteurs.<\/p>\n<p><strong>L\u2019approche analytique<\/strong>, qui tire parti de la structure linguistique des mots, tente de d\u00e9tecter et d\u2019identifier les composantes \u00e9l\u00e9mentaires ( phon\u00e8mes , syllabes, \u2026). Celles-ci sont les unit\u00e9s de base \u00e0 reconna\u00eetre. Cette approche a un caract\u00e8re plus g\u00e9n\u00e9ral que la pr\u00e9c\u00e9dente : pour reconna\u00eetre de grands vocabulaires, il suffit d\u2019enregistrer dans la m\u00e9moire de la machine les principales caract\u00e9ristiques des unit\u00e9s de base.<br>\nPour la reconnaissance de mots isol\u00e9s \u00e0 grand vocabulaire, la m\u00e9thode globale ne convient plus car la machine n\u00e9cessiterait une m\u00e9moire et une puissance consid\u00e9rable pour respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu \u00e0 l\u2019ensemble des mots du dictionnaire. Il est de plus impensable de faire dicter \u00e0 l\u2019utilisateur l\u2019ensemble des mots que l\u2019ordinateur a en m\u00e9moire. C\u2019est donc la m\u00e9thode analytique qui est utilis\u00e9e : les mots ne sont pas m\u00e9moris\u00e9s dans leur int\u00e9gralit\u00e9, mais trait\u00e9s en tant que suite de phon\u00e8mes.<\/p>\n<h1>La reconnaissance de la parole en continu : Quelques mots\u2026<\/h1>\n<p>Tout d\u2019abord, qu\u2019est ce que la parole continue ? C\u2019est un discours, des phrases o\u00f9 les mots s\u2019encha\u00eenent sans moyen de les s\u00e9parer, contrairement aux mots isol\u00e9s. En effet, dans une phrase, les mots s\u2019encha\u00eenent sans aucun moyen apparent de les dissocier. C\u2019est l\u00e0 qu\u2019intervient la notion de \u201cstrat\u00e9gie\u201d. La probl\u00e9matique \u00e0 r\u00e9soudre est comment d\u00e9couper un signal afin de reconna\u00eetre les diff\u00e9rents mots ou phon\u00e8mes qui le compose.<\/p>\n<p><strong> Lire ou pr\u00e9dire ? <\/strong><\/p>\n<p>On distingue deux approches diff\u00e9rentes. La premi\u00e8re consiste \u00e0 reconstituer la phrase \u00e0 partir du signal, la deuxi\u00e8me approche consiste \u00e0 pr\u00e9dire le mot \u00e0 reconna\u00eetre: en implantant dans le syst\u00e8me une certaine intelligence, la machine pourra \u201cpr\u00e9voir\u201d ce qui va \u00eatre dit.<\/p>\n<p><strong>Traitement de gauche \u00e0 droite ou du milieu vers les c\u00f4t\u00e9s\u00a0?<\/strong><\/p>\n<p>A un moment ou \u00e0 un autre, il faut bien commencer \u00e0 analyser le signal lui-m\u00eame. C\u2019est l\u00e0 qu\u2019on doit d\u00e9terminer la strat\u00e9gie lat\u00e9rale. Le plus naturel est de proc\u00e9der par ordre chronologique. C\u2019est ce qu\u2019on appelle le traitement gauche \u2013 droite. Il peut cependant s\u2019av\u00e9rer int\u00e9ressant d\u2019appliquer le traitement du milieu vers les c\u00f4t\u00e9s. Dans cette m\u00e9thode, on balaye le signal sans une analyse tr\u00e8s pouss\u00e9e, on recherche des mots \u2013 cl\u00e9s. On accentue la recherche de quelques mots du vocabulaire. Ainsi, apr\u00e8s l\u2019application de cette m\u00e9thode, il est possible d\u2019appliquer une strat\u00e9gie descendante pour combler les \u201d trous \u201c.<\/p>\n<p>On notera que c\u2019est la combinaison de ces diff\u00e9rentes strat\u00e9gies qui permet d\u2019obtenir les meilleurs r\u00e9sultats\u2026<\/p>\n<p>\u00a0<\/p>\n<\/body>","protected":false},"excerpt":{"rendered":"<p>L\u2019analyse du signal de la parole Au d\u00e9part d\u2019un son \u00e9mis par un locuteur, celui-ci est capt\u00e9 par un microphone.<\/p>\n","protected":false},"author":1,"featured_media":190,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":false,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[6],"tags":[],"class_list":["post-106","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-signal-processing"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/i0.wp.com\/imalogic.com\/blog\/wp-content\/uploads\/2016\/11\/05105916-photo-logo-reconnaissance-vocale-google.png?fit=512%2C512&ssl=1","jetpack_sharing_enabled":true,"jetpack_shortlink":"https:\/\/wp.me\/p8J21V-1I","jetpack-related-posts":[],"_links":{"self":[{"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/posts\/106","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/comments?post=106"}],"version-history":[{"count":1,"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/posts\/106\/revisions"}],"predecessor-version":[{"id":181,"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/posts\/106\/revisions\/181"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/media\/190"}],"wp:attachment":[{"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/media?parent=106"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/categories?post=106"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/imalogic.com\/blog\/wp-json\/wp\/v2\/tags?post=106"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}