La perception de la parole

Rédigé par Michel Billières le

La perception de  la parole constitue encore un véritable défi. Depuis une quarantaine d’années, elle est expérimentalement étudiée par des spécialistes de différentes disciplines, de divers secteurs des sciences humaines et des sciences de l’ingénieur, avec à chaque fois des enjeux très différents. Chaque discipline développe des recherches spécifiques dans divers domaines où l’on propose des études systématiques sur tel ou tel aspect du signal parolier. Les interactions entre les différents champs disciplinaires ne sont pas toujours évidentes. Elles ne permettent pas encore de brosser un tableau complet de cette éminemment complexe de processus qu’est la perception des sonorités parolières.

Parler est une activité tellement banale que l’on ne soupçonne même pas le formidable exploit cognitif que demandent la production et la réception d’un discours. En langue maternelle, lorsque nous écoutons, notre interlocuteur produit en moyenne entre 100 et 200 mots par minute. Ceci correspond à l’émission de 3 ou 4 syllabes ainsi qu’à l’actualisation de 12 à 20 phonèmes par seconde. Cela signifie que nous identifions un mot toutes les 400 millisecondes environ en allant le récupérer au sein d’un lexique mental comprenant quelques 60 000 unités pour un individu normal. Cette activité peut se poursuivre longtemps, et nous comprenons en temps réel, sans effort et sans fatigue (quoique parfois…).

La méthode verbo tonale d’intégration phonétique (MVT) repose sur le postulat qu’on reproduit mal les sonorités d’une langue étrangère car on les perçoit incorrectement. On est phonologiquement sourd aux sons de la L2. La métaphore géniale et pédagogiquement séduisante du crible phonologique constitue un point de départ. Mais n’explique pas tout. Aujourd’hui, comprendre les mécanismes, les processus et le fonctionnement et le fonctionnement de la perception en suivant l’avancée des recherches s’inscrit logiquement dans une démarche MVT. Cet article inaugure une série portant sur les processus psycholinguistiques dans le traitement des sonorités parolières.

La perception: une définition.

L’étude de la perception fait l’objet de théories nombreuses et variées. Elle relève de plusieurs disciplines. Dans une optique cognitive,

La perception désigne l’ensemble des procédures qui nous permettent de prendre connaissance du monde environnant et de construire nos propres représentations mentales de ce monde. […] [Elle] implique de nombreux traitements au cours desquels l’individu interprète les informations issues de l’environnement en fonction de ses attentes et de ses motivations, compare à ses représentations en mémoire prend des décisions, effectue des choix, se construit en somme une représentation du monde extérieur. Il est d’ailleurs courant de parler «d’activités perceptives» ou de «constructions perceptives» plutôt que de perception, pour mettre en avant le caractère actif, l’engagement personnel de l’individu lors d’une tâche perceptive » (Bagot, 1999, 5).

Cette définition a retenu notre attention car elle

  • souligne que la perception est une activité dynamique et complexe nécessitant l’intervention de nombreux mécanismes et processus;
  • montre qu’elle est le résultat élaboré de plusieurs influences en interaction se combinant pour produire un effet;
  • met en valeur le rôle de l’individu, contrairement à d’autres présentations qui assimilent l’humain à une machine. L’expérience, le passé, les besoins du sujet ainsi que son état émotionnel font partie intégrante de la perception;
  • fait ressortir les trois caractères combinés de la perception : dynamique, productif et prédictif.

La perception, une étude nécessairement interdisciplinaire.

Les phonéticiens, psycholinguistes et psychologues cognitivistes s’efforcent de trouver des réponses à la question suivante : lorsque quelqu’un nous parle, comment se fait-il que nous donnions du sens à ces sons successifs ? Autrement dit quel processus permet à des représentations concrètes -phonétiques- de se transformer irrépressiblement en des représentations symboliques -sémantiques. Ce qui est illustré par la figure suivante:

Du son au sens

Cette entreprise nécessite une approche interdisciplinaire

  • Les phonéticiens scrutent le signal de parole de différentes façons au moyen d’un appareillage sophistiqué;
  • Les psychologues cognitivistes, qui s’intéressent au langage, apportent des méthodes d’étude rigoureuses fondées sur l’expérimentation afin de mettre en évidence les processus extrêmement rapides, automatisés, irrépressibles et inconscients permettant d’accéder à la reconnaissance des mots;
  • Les psycholinguistes ont l’expertise du système linguistique. Ils font le lien entre les linguistes et les psychologues cognitivistes. Ils peuvent aussi servir de truchement entre des spécialistes du son ne prenant pas en compte les spécificités du signal de la parole –acousticiens– et des psychologues psychoacousticiens. Ceux-ci travaillent sur des stimuli auditifs de sons du langage dans une perspective de description systématique mais sans finalités applicatives particulières en langue.

Nous sommes encore très loin de savoir comment s’opèrent les processus d’accès au sens et à l’interprétation de la parole spontanée en temps réel. Les recherches portent essentiellement sur la reconnaissance des mots isolés ou produits dans des phrases, ce qui permet d’intégrer les effets de contexte. Rien à voir donc avec la réalité écologique d’une classe de langue vivante. Par contre, les mécanismes et processus de la perception sont de plus en plus connus. Et des retombées issues de la recherche fondamentale sont exploitables par les professeurs. Nous y reviendrons dans de prochains articles. Il existe un danger dont il convient d’être conscient:  Les neuromythes très présents dans certaines publications et qui peuvent jeter le discrédit sur les travaux de qualité.

 La spécificité du signal de parole.

Il possède certaines propriété singulières et se caractérise par une très grande variabilité et au fond hétérogénéité. Ce qui caractérise la parole, c’est son irreproductibilité. Nous ne reproduisons jamais deux fois le même son. Voici qui n’est guère rassurant pour un professeur de langue. Et qui va à l’encontre des descriptions canoniques.

C’est un signal acoustique continu, composé de sons successifs s’enchaînant les uns aux autres sans qu’aucune frontière physique explicite n’indique le début ou la fin des phonèmes, des syllabes et des mots composant la suite sonore. En oral spontané, il  montre fréquemment des discontinuités ainsi que divers types d’interruptions et de pauses. L’ensemble de ces événements est loin de correspondre aux différentes unités de signification décrites par les linguistes. Les groupes rythmiques, syntagmes et autres mots et actes de parole sont au fond des vues de l’esprit. Mais les contraintes physiologiques sont là, qui s’imposent par rapport à ces représentations intellectualisantes.

 Ce signal est d’une très grande variabilité.

  • Certaines productions phonétiques sont tout-à-fait originales et imprévisibles. Ce sont les variations liées à tel ou tel locuteur:
    • appartenance sexuelle et géo-socio-culturelle;
    • âge;
    • état psychique;
    • idiosyncrasie phonétique (style de parole, débit, particularités articulatoires);
  • Au contraire, d’autres types de variations sont conjecturables car dépendantes de l’organisation phonique de la langue. Il s’agit notamment
    • des aspects prosodiques –structuration métrique, tonale et temporelle;
    • des contraintes phonotactiques. Celles-ci régissent l’ordre de succession des phonèmes à l’intérieur d’une syllabe, d’un mot ainsi qu’en frontière de mots (phénomènes de liaison et d’élision en français).

Question: comment parvenons-nous à comprendre et à interpréter les propos d’autrui en dépit de cette infinité de variations?.. Réponse: c’est comme ça…

Esquisse d’un modèle de reconnaissance de la parole.

La complexité des traitements perceptifs est telle qu’elle suppose une activité de traitement de l’information dont le point de départ serait l’analyse des données sensorielles aboutissant à la reconnaissance d’unités parolières servant de base à la compréhension de ce qui est entendu. Le signal subirait des transformations successives qui élaborent des représentations de plus en plus abstraites. Il est donc communément admis que la perception de la parole passe par différentes étapes. Chacune d’elle fait l’objet de théories parfois contradictoires étayées par diverses familles de modèles donnant lieu à des résultats et interprétations diversifiés.

Je m’en tiendrai ici à un modèle très généraliste en 3 étapes clé pouvant être succinctement présentées au moyen de la figure ci-après. Il reçoit l’accord de la plupart des spécialistes. La bibliographie de l’article permettra aux personnes intéressées d’aller plus avant dans la découverte de la problématique.

Le lexique mental comme interfaceLes unités lexicales sont stockées et récupérées à l’intérieur du lexique mental. Ce lexique interne, postulé par de nombreux modèles psycholinguistiques, est une structure mentale hypothétique de la mémoire à long terme. Il permet de stocker et de récupérer toutes les informations ­phonologiques, orthographiques, morphologiques, syntaxiques, sémantiques- des mots, qu’ils soient présentés auditivement, visuellement, ou prononcés par le locuteur. Le lexique mental regroupe un certain nombre de paramètres formels dépendant de la modalité sensorielle sollicitée ­auditive ou visuelle- : longueur, fréquence, régularité orthographique, homophonie, similarité phonétique, visuelle ou orthographique. Rien à voir par conséquent avec un dictionnaire classique.

Le concept de lexique mental représente le trait d’union entre la perception de la parole (niveau acoustico-phonétique appartenant au domaine perceptif) et les niveaux supérieurs du traitement cognitif (relevant du domaine linguistique).

Plus avant dans mon propos, je vais m’appuyer sur le schéma ci-dessous. Il va me permettre de me référer aux processus cognitifs intervenant dans la perception de la parole. Leur traitement en temps réel reflète la nature automatisée des processus et mécanismes du langage humain. Précision: les termes clé de segmentation, catégorisation, appariement, alignement sont autant de niveaux étudiés exclusivement par un chercheur donné voire une équipe dans un labo de recherches. Ce qui peut amener à un cloisonnement. Et souligne l’hyper spécialisation de mise dans ces disciplines.

Un modèle généraliste de la perception de la paroleLe signal de parole est une onde physique, concrète.  La perception proprement dite de la parole constitue la 1ère étape. Elle est sous l’emprise de traitements de bas niveau, c’est-à-dire guidés exclusivement par le stimulus. Ces traitements sont

  • irrépressibles;
  • automatisés;
  • extrêmement rapides;
  • inconscients.

Durant cette étape au cours de laquelle certaines caractéristiques du stimulus peuvent s’évaporer ou ne pas être prises en compte, deux mécanismes complémentaires interviennent

  • la segmentation assure un premier « découpage » du signal;
  • elle est complétée par l’opération de catégorisation. Il s’agit du processus permettant de regrouper des entités différentes dans une même représentation unitaire sur la base de leurs propriétés partagées. C’est grâce à la perception catégorielle que le cerveau discrimine les différentes unités phonémiques en établissant des frontières entre elles, assurant de ce fait la segmentation du signal de parole en unités discrètes.

Le résultat est la reconnaissance d’une représentation infra-lexicale. Oui, mais laquelle?

Pendant longtemps, la parole a été présentée comme une succession d’unités discrètes successives. Le signal acoustique est composé d’une suite de segments assez aisément identifiables et délimitables. Ils  correspondent à l’actualisation des phonèmes d’une langue donnée. Cette vision est conforme aux thèses structuralistes, elle est reprise par les premiers travaux de phonétique expérimentale des années 50. Mais les choses évoluent assez rapidement. Les effets de contexte de réalisation d’une unité donnée sont très vite pris en compte: son environnement, la co-articulation sont vite intégrés par les chercheurs.

En outre, le format de cette unité infra-lexicale est discuté. Certains spécialistes envisagent des unités comme les diphones, les demi-syllabes ou encore les morae dans des langues comme le japonais ou le lithuanien. Ceci permet de faire remarquer que les habitudes de segmentation

  • ne sont pas toutes identiques, à preuve certains résultats disparates en anglais où pour certains auteurs la syllabe pourrait être une unité de segmentation alors que d’autres soutiennent que c’est le phonème ;
  • semblent varier selon la langue du sujet. Ainsi, les nombreuses études sur l’anglais donnent des résultats qui diffèrent de celles menées sur le français ; les Français paraissent utiliser la syllabe comme unité minimale de segmentation alors que les Anglais ne seraient pas sensibles à la structure syllabique. D’où le danger de citer exclusivement des sources anglo-saxonnes quand on commente une langue comme le français…

 Ceci conduit certains à remettre en question le principe selon lequel les segments phonético-phonologiques soient les seules unités discrètes devant être extraites du signal afin d’accéder à l’étape d’identification lexicale. La syllabe retient l’attention et les études se développent considérablement à partir des années 80. La variation segmentale se produit en son sein avec les phénomènes

  • de co-articulation;
  • d’assimilation;
  • les divers degrés d’accentuations.

En d’autres termes, la réalisation des phones est étroitement liée au geste syllabique produit.

Sur le plan de la perception, la syllabe serait une unité fondamentale de segmentation pour le français et plus généralement pour les langues romanes. Elle apparaît aussi comme une unité d’interface entre les niveaux pré-lexicaux de traitement et le niveau lexical.

Il existe aussi une autre façon d’envisager la segmentation en pointant dans le signal des éléments saillants qui pourraient concourir à favoriser l’identification lexicale. Il s’agit notamment des différents accents constituant autant de proéminences rythmiques pouvant être exploitées par le locuteur d’une langue donnée (j’y reviendrai dans un autre article).

Il est fort possible que différents formats soient pris en compte simultanément et/ou en fonction des circonstances: l’individu réalise ce qui est le plus économique et le plus rentable pour lui en fonction de son interaction avec l’environnement.

L’identification lexicale est rendue possible grâce aux opérations d’alignement et d’appariement. Dit de façon triviale, il s’agit de faire correspondre dans la mesure du possible les représentation infra-lexicales produites en direct avec les représentations permanentes disponible dans le lexique mental. Un exemple va permettre de mieux comprendre le déroulement de ces deux opérations de déroulant simultanément et dans le temps.

La suite sonore [ilɛtɛnɔʁmɛmɑ̃bɛt] peut au final être comprise/interprétée comme suit

il est énorme et m’embête
[ilɛtɛnɔʁmɛmɑ̃bɛt]il est énormément bête
il est ténor mais m’embête

Cette suite sonore est composée des mêmes éléments segmentaux. Une segmentation est opérée ainsi que des opérations d’appariement qui aboutissent à trois « phrases » aux sens très différents. Ceci est possible

  • par la convocation d’un contexte permettant de justifier ces productions;
  • par le fait que des traitements de haut niveau interviennent à un moment donné. Eux aussi sont irrépressibles et très rapides. Ils sont guidées par les concepts et dépendent du contexte et des circonstances. Ils peuvent aussi faire l’objet d’un contrôle de la part du sujet.

La 3ème étape aboutissant à l’interprétation est du ressort de la sémantique et de la pragmatique. La phonétique a son mot à dire, notamment par le biais de la prosodie. Mais ceci est ici hors de propos.

Une précision importante. Il est important de considérer que les données ne sont pas collectées et analysées exclusivement sur la base de traitements ascendants comme c’était le cas dans beaucoup de modèles modularistes des années 70-80. Les traitements descendants sont aussi à considérer (cf. flèches ↓ et ↑ dans la figure en supra). Ils permettent d’expliquer certains phénomènes courants tels que l’anticipation, la restauration phonémique ou encore la compréhension d’énoncés agrammaticaux mais sémantiquement recevables.

OOOOOOOOOOOO

OOOOOO

Cet article est une introduction minimaliste à une problématique qui sera développée dans des billets ultérieurs.

Orientation bibliographique.

Bagot, J.-D. (1999) Information, sensation et perception Paris, Armand Colin, coll. Cursus

Billières, M., & Gaillard, P. (2008) Approche pluridisciplinaire de la perception de la parole (pp. 173-192) In: Bilger, M. (coord.) Données orales. Les enjeux de la transcription Cahiers de l’Université de Perpignan n° 37.

Frauenfelder, U. (2002) La reconnaissance des mots parlés. In La maîtrise du langage (pp. 25-39). Rennes: Presses universitaires de Rennes.

Frauenfelder, U., & Nguyen, N. (2000) La reconnaissance des mots parlés. In J.-A. Rondal & X. Seron (Eds.), Troubles du Langage: Bases Théoriques, Diagnostic et Rééducation (pp. 213-240). Bruxelles: Mardaga.

Le Ny, J.-F.; Gineste, M.-D. (2002) Psychologie cognitive du langage Paris, Dunod.

Nguyen, N. (2005) la perception de la parole. In N. Nguyen, S. Wauquier-Gravelines & J. Durand (Eds.), Phonologie et phonétique: Forme et substance (pp. 425-447). Paris: Hermès, Lavoisier.

Segui, J.; Ferrand, L. (2000) Leçons de parole Paris, Odile-Jacob.

Spinelli, E., & Ferrand, L. (2005) Psychologie du langage. L’écrit et le parlé, du signal à la signification. Paris: Armand Colin.


Avatar

Julie D · 26 mars 2015 à 10 h 29 min

Merci pour cet article !! J’ai hâte de lire la suite!

    Michel Billières

    Michel Billières · 26 mars 2015 à 11 h 49 min

    Patience, patience, promis cela va arriver dans les prochaines semaines. Merci pour vos commentaires toujours positifs et encourageants 🙂

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Abonnez-vous à l'infolettre

afin de recevoir les nouveaux articles du blog

Bienvenue!

Pin It on Pinterest

Share This