La perception catégorielle des sons de parole

Rédigé par Michel Billières le

La catégorisation consiste en un processus permettant de regrouper des entités différentes ayant des propriétés communes au sein d’une même représentation unitaire. Nous verrons d’abord tout l’intérêt de cette opération mentale qui assure un classement des objets du monde dans des catégories générales. Cet ordonnancement permet une meilleure interaction avec l’environnement. Nous évoquerons ensuite la perception catégorielle des sons de parole. Tout individu « range » tel ou tel son dans une catégorie précise. Le principe de perception catégorielle est utile pour un professeur de langue vivante. Il permet de comprendre le phénomène de surdité phonologique en L2. Il apporte un éclairage scientifique à la métaphore du crible phonologique couramment évoquée pour le commenter.

Intérêt de la catégorisation.

La catégorisation est un acte mental consistant à découper la réalité en classes d’objets ayant des propriétés communes. Il s’agit d’un processus de bas niveau: il est automatique, extrêmement rapide, irrépressible et n’affleure pas la conscience. Il est capital. Notre appareil perceptif –audition, vision, olfaction, etc.- ne se contente pas de saisir plus ou moins bien une infinie variété de données sensibles. Il les organise en catégories, nécessairement limitées en nombre. Ceci permet la création et l’entretien de représentations mentales captant l’aspect catégoriel des événements en provenance de l’environnement. La catégorisation ne présente que des avantages, comme le mentionne S. Reed, 1999, p. 272 :

  • elle réduit la complexité de l’environnement. Selon les scientifiques, il existe plus de 7 millions de couleurs. Fort heureusement, nous les rangeons en fonction de leur appartenance à une classe ; sinon, notre vie serait consacrée à apprendre le nom de chacune d’elles ! Il en va de même pour les sons : il y a une infinité de façons de prononcer et de percevoir [y], nous rattachons spontanément toutes ces variétés à une représentation permanente /y/.
  • c’est un moyen d’identification des objets du monde. Nous avons l’impression de reconnaître une forme quand nous pouvons la classer dans une catégorie familière comme chien, table, la lettre A;
  • elle réduit le besoin d’un apprentissage continuel ;
  • elle permet de décider ce qui constitue une action appropriée. Si je raffole des champignons, manger une variété vénéneuse n’est pas une action appropriée ;
  • elle permet de relier des classes d’objets et d’événements. Elle facilite les opérations de subordination et de supériorité. Ainsi, la catégorie table a pour classe supérieure mobilier et pour subordonnée table basse.

Précocité du processus de catégorisation des sons paroliers.

Ce processus se met en place dès la 1ère année de la vie du bébé. Cette mécanique perceptive du traitement de la parole fait partie de son équipement biologique. Elle lui permet de discriminer les contrastes phonétiques de façon catégorielle. Les chercheurs ont mis cela en évidence en s’appuyant sur l’acte de succion. C’est le seul comportement que le bébé maîtrise convenablement. Ils appliquent  le test de la tétine ou plutôt la technique de la succion non nutritive. La tétine utilisée enregistre les modifications d’intensité de la succion. Des tests d’habituation permettent de mettre en évidence la perception catégorielle des sons de parole. Un bébé entend un stimulus sonore; son rythme de succion tend à diminuer si le stimulus ne varie pas ; en d’autres termes, cela signifie que le bébé s’y habitue et s’ennuie. Par contre, l’intensité de la succion augmente quand on lui fait entendre un nouveau stimulus. Le nourrisson éprouve de l’intérêt pour un son qu’il perçoit comme étant différent du précédant. Il est démontré que, dès la naissance, l’enfant perçoit de façon catégorielle des contrastes sonores entre sons voisés et non voisés.

Il existe environ 800 phonèmes – 600 consonnes et 200 voyelles – si on prend toutes les réalisations attestées dans les langues du monde. Sur un plan théorique, tout bébé est en mesure de pouvoir percevoir  ainsi que réaliser n’importe lequel d’entre eux. Tout dépend la ou les langues qui sont parlées là où il est né. Pendant la période du jasis (du babillage, en gros entre 6 et 10 à 12 mois) le nourrisson joue avec les sons, il explore toutes les possibilités de son appareil phonatoire et prononce des choses bizarres que son entourage est bien en peine de pouvoir reproduire… Mais il entend quotidiennement des réalisations parolières particulières, celles de son entourage. Il reconnaît et assimile progressivement ces stimuli sonores familiers auxquels il se trouve exposé en permanence. Les étapes dues à l’influence de la langue sont bien connues, en résumé:

  • vers 5 mois, certaines voyelles sont déjà imitées, de même que l’intonation;
  • vers 7 mois certains patrons prosodiques;
  • entre 7 et 8 mois, pendant la période du babillage, émergence de syllabes canoniques;
  • L’espace vocalique serait constitué vers  9-10 mois. Puis, les répertoires consonantiques d’enfants appartenant à des communautés linguistiques diverses se différencieraient progressivement entre 11 et 13 mois;
  • Il en va de même pour des syllabes spécifiques perçues durant la période du jasis. L’enfant devient sensible aux contraintes phonotactiques (groupements de sons en fonction des règles propres à une langue donnée qui autorise certaines séquences et n’en tolère pas d’autres).

 Donc, vers 10-13 mois, les contrastes n’apparaissant pas dans la langue environnante du bébé finissent par ne plus être perçus. Lui qui à la naissance avait une écoute universelle est rattrapé par la surdité phonologique en l’espace d’une seule année. Il devient alors un « spécialiste phonéticien » de sa langue maternelle. Et il a encore beaucoup de travail devant lui…

Un article du blog, consacré à la mise en place du crible prosodique. complète certaines de ces informations sous un autre angle.

Beaucoup de travaux suggèrent que des zones du cerveau du bébé interviennent spécifiquement lors de la perception des sons de parole. Ce ne sont pas les mêmes qui sont sollicitées quand il perçoit et au besoin discrimine d’autres stimuli acoustiques. En d’autres termes, il existe un mode de traitement particulier, « linguistique » en quelque sorte, typique pour la perception et la discrimination des unités parolières, et se distinguant de la perception auditive de l’humain en général.

Fonctionnement de la perception catégorielle des sons de parole.

 Dans un récent article, j’ai évoqué le problème de la perception de la parole dont je rappelle qu’il n’existe aujourd’hui encore aucun modèle général recueillant l’asssentiment de l’ensemble des chercheurs. Dans ce billet, j’avais mentionné certaines caractéristiques du signal parolier. Il est caractérisé par une extrême variabilité. Un même énoncé peut être produit en revêtant une multitude de formes physiques très différentes. Et un auditeur peut reconnaître et comprendre cet énoncé malgré ces formes physiques dissemblables. Et ce grâce à cette propriété fondamentale qu’est la catégorisation. Elle n’apparait pas dans le signal de parole mais, grâce à elle, l’humain ne prête nullement attention, est sourd aux variations non pertinentes constamment présentes dans ce même signal. Parmi les nombreux défis restant à relever, il y a celui qui permettrait d’expliquer comment s’effectue le passage entre les modalités physiques du signal de parole décrites par la phonétique acoustique et le niveau d’individualisation des phonèmes, unités fonctionnelles entrant dans les opérations de décodage et d’encodage.

Il faut être conscient de l’extrême complexité de ce phénomène sur le plan cognitif. Outre la variabilité due à l’appartenance géo-socio-culturelle des locuteurs influençant leur accent, l’idiosyncrasie dans leur manière de prononcer, pensons aussi à d’autres facteurs qui interviennent quand on écoute quelqu’un qui nous parle:

  • cela peut se produire dans un environnement bruyant; avec d’autres personnes parlant fort autour;
  • la personne peut parler très rapidement. Il faut s’adapter à ce tempo ne laissant aucun répit;
  • ce faisant, elle peut escamoter des sons, des syllabes [sasedʒazvɑ̃tɑ̃dyfsave] ça s’est déjà souvent entendu vous savez.

En règle générale la compréhension s’effectue sans problème et en éliminant tous les bruits parasites qui pourraient gêner.

La mise en évidence du phénomène de perception catégorielle des sons de parole fait l’objet de nombreux travaux expérimentaux menés dans des laboratoires de phonétique, de psycholinguistique et de psychologie cognitive. Il existe plusieurs théories, plusieurs approches décrites dans une abondante littérature très spécialisée. Je me contenterai simplement ici d’évoquer Liberman et Kuhl, deux chercheurs dont les études majeures sur la catégorisation peuvent susciter l’intérêt de personnes s’intéressant aux problèmes de prononciation en L2. Pour une revue générale de la problématique, je renvoie à deux remarquables articles très complets indiqués en bibliographie et rédigés par C. Meunier et N. Nguyen.

Les premières expériences menées par Liberman remontent aux années 50. Le principe de perception catégorielle est mis en évidence par des expériences devenues des classiques, portant sur le rôle des transitions formantiques pour l’identification du lieu d’articulation et sur celui du VOT pour identifier le caractère voisé ou non d’un son.

On choisit deux syllabes ne différant que par un seul trait phonétique, par exemple /ba/ et /pa/. Elles se distinguent par leur VOT (Voice-Onset Time) qui est le temps entre la barre d’explosion de la consonne et le voisement de la voyelle. Pour /ba/, le délai de voisement entre le début du mouvement des lèvres et la vibration des cordes vocales est quasi simultané; pour /pa/ les lèvres se mettent à bouger avant la vibration des cordes vocales.

On crée par synthèse plusieurs syllabes intermédiaires entre /ba/ et /pa/ en faisant varier la durée du VOT. On obtient ainsi un continuum acoustique. La visualisation de cette procédure est visible ici. (source non trouvée, je suis désolé).

Ce continuum est présenté à des sujets selon un protocole comprenant deux parties:

  • Lors d’une tâche d’identification à choix forcé, on leur soumet les syllabes intermédiaires fabriquées en faisant varier le VOT, présentées dans un ordre aléatoire et à plusieurs reprises. Ils doivent dire s’ils entendent [ba] ou [pa]. Ils classent certaines productions dans un groupe /ba/ et les autres dans un groupe /pa/ avec une frontière phonétique nette entre ces deux regroupements.  En d’autres termes la perception change radicalement au passage d’une frontière: les sons appartiennent soit à une catégorie soit à une autre. L’espace acoustique est ainsi découpé en catégories stables;
  • l’autre expérience du protocole réside en une tâche de discrimination. Il est demandé aux sujets de discriminer des syllabes du continuum présentées par paire en disant si elles sont identiques ou différentes. Les scores d’identification correcte sont alors beaucoup plus faibles dès lors que les stimuli sont situés au sein d’une même catégorie: les sujets sont alors sourds au différences physiques.

La perception phonétique n’est pas linéaire et continue mais bien catégorielle. Les individus ne font aucun cas des différences acoustiques entre sons situés à l’intérieur d’une même catégorie phonémique. Ils se focalisent par contre sur les variations inter-catégorielles leur permettant de distinguer entre les phonèmes. Deux stimuli semblables seront discriminés de la même façon tant qu’ils seront situés dans une même aire. Ils seront identifiés comme appartenant à la même catégorie. Mais, entre catégories limitrophes, il existe dans le continuum acoustique des zones frontières qui, si elles sont franchies, font basculer l’identification d’un phonème vers un autre phonème.

Une autre série de travaux nous intéresse directement, ceux menés par Kuhl sur le Perceptual Magnet Effect. On peut directement se reporter à ses publications ici et là. Patricia Kuhl a mené toute une série d’études en perception qui l’ont conduite à développer le principe du prototype puis de « l’effet magnet ». L’idée est qu’un individu stocke en mémoire une sorte de résumé abstrait se rapportant à des éléments formant une catégorie. Les catégories se forment naturellement par accumulation d’exemplaires, de variantes, autour d’un prototype. Ce dernier est l’élément le plus représentatif d’une catégorie et attire vers lui la perception des sons qui sont situés à proximité. Les sons de la catégorie situés plus loin ne subissent pas cet effet d’attraction. La discrimination est difficile à proximité du prototype. Plus on s’en éloigne, plus elle devient aisée. On peut voir là une certaine analogie avec le principe des aires de dispersion utilisé en MVT.

Ses travaux ont mené P. Kuhl à proposer le système NLM (Native Language Magnet Model) postulant que le tout jeune enfant est « équipé » pour segmenter le flux de parole en catégories délimitées par des frontières. Elle considère qu’une personne apprenant une langue étrangère peut parvenir à créer de nouvelles frontières suite à un entrainement intensif. La difficulté pour l’apprenant étant que si un son de la L2 est relativement proche d’un aimant perceptuel de la L1,il aura naturellement tendance à l’assimiler à la catégorie de la L1.

00000000000000

0000000

Cet article est une simple mention du phénomène de perception catégorielle. En aucun cas je n’entrerai dans les nombreux problèmes et les questions demeurant en suspens soulevés dans les études s’y rapportant. Ces travaux sont d’une extrême minutie (cf. sources bibliographiques) et demandent des compétences disciplinaires souvent éloignées de la formation initiale d’un professeur de langue vivante. Ce dernier a certainement intérêt à connaître l’existence de cette opération cognitive « obligatoire » à laquelle (ou contre laquelle) ni ses élèves  ni lui-même ne peuvent rien. Et qui constitue l’une des sources de difficultés pour appréhender convenablement la matière phonique de la L2 étudiée.

Cela signifie-t-il que les profs et les apprenants sont impuissants et ne peuvent rien faire? Pas forcément. Mais ceci fera l’objet d’un article ultérieur.

Orientation bibliographique.

Holt, L; Lotto, A. (2010) Speech Perception as categorization  Atten Percept Psychophys. 2010 Jul; 72(5): 1218–1227

Kuhl, P. K. (1979). Models and mechanisms in speech perception: Species comparison provide further contributions. Brain, behavior and evolution, 16, 374-408.

Kuhl, P. K. (1979). Speech perception in early infancy: Perceptual constancy for spectrally dissimilar vowel categories. Journal of the Acoustical Society of America, 66, 1668-1679Kuhl, P. K. (1988). Auditory perception and the evolution of speech. Human Evolution, 3, 19-43.

Kuhl, P. K. (1991). Human adults and human infants show a « perceptual magnet effect » for the prototypes of speech categories, monkeys do not. Percept Psychophys, 50(2), 93-107

Liberman, A. M. (1957). Some results of research on speech perception. Journal of the Acoustical Society of America, 29, 117-123.

Liberman, A. M. (1982). On finding that speech is special. American Psychologist, 37, 148-167.

Meunier, C. (2001) Le traitement de la variabilité dans la parole. Aspects théoriques et méthodologiques Travaux Interdisciplinaires du LPL, vol. 20, 69-90

Nguyen. N. (2005) La perception de la parole. Phonologie et phonétique, Hermès, pp.425-447 Cognition et traitement de l’information.

Reed, S.K. (1999) Cognition Paris Bruxelles, De Boeck Université

 Source image: Pixabay


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Pin It on Pinterest

Share This