Module 6 — Le Son – Formation en Audio-Psycho-Phonologie

Le son est la propagation d’une vibration qui provoque une onde mécanique. Le son est la sensation auditive produite par la perception de cette vibration. On réserve ce terme aux vibrations que notre appareil auditif est capable de percevoir — au maximum celles comprises entre 16 et 20 000 Hz pour la plupart des personnes. Cette fourchette concerne les individus dont l’acuité auditive est la plus élevée. Les vibrations situées en dessous seront appelées infrasons ; si elles sont au-dessus de 20 000 Hz, elles sont appelées ultrasons.

Les sons sont complexes. Il n’y a pas de sons purs dans la nature. Ce sont la somme de plusieurs ondes sonores qui se superposent et, au final, donnent l’onde que nous percevons. Pour qu’il existe, se propage et que nous puissions percevoir un son, il faut un mouvement vibratoire dans un corps sonore, il faut un intermédiaire qui, par vibration moléculaire, le transmette à notre oreille, et il faut que notre oreille soit capable de percevoir cette vibration. À partir de notre oreille, cette perception par transmission nerveuse se transmet au cerveau, et le cerveau élabore une image acoustique que nous appelons la sensation du son.

Les caractéristiques du son

Nous avons plusieurs caractéristiques à considérer :

L’intensité, mesurée en décibels, est la plus ou moins grande pression qu’exerce l’onde sonore.
La hauteur ou le ton est le nombre de cycles par seconde que nous appelons hertz. L’oreille humaine perçoit entre 16 Hz et 20 000 Hz, pour ceux qui ont l’oreille très fine.
Le timbre du son dépend des harmoniques, qui sont des sons multiples de la fréquence fondamentale.
La durée, qui est très importante pour le rythme, la cadence des langues et l’analyse des phonèmes, leur production et leur perception.

L’intensité sonore et l’échelle des décibels

L’intensité sonore est plus ou moins grande selon la pression exercée par l’onde sonore, la perception de l’énergie que l’on perçoit par seconde. Chaque unité de surface de notre tympan a un composant subjectif. Le décibel est la dixième partie d’un bel, qui est l’unité choisie pour l’intensité. C’est une unité graduée de manière géométrique : les décibels augmentent de 10 en 10, ce qui est une progression arithmétique, mais l’échelle physique — qui est l’apport d’énergie réel — augmente en puissances de 10, ce qui est une progression géométrique logarithmique.

Pour noter une augmentation de 30 décibels par rapport au son d’un tracteur, nous aurions besoin de 1 000 tracteurs ensemble, c’est-à-dire 10³. Autrement dit, si nous sommes dans un endroit et que nous écoutons le son d’un tracteur et que nous avions la possibilité de le faire augmenter de 30 décibels avec un potentiomètre, en réalité, nous aurions dû préparer 1 000 tracteurs pour atteindre cette différence d’intensité.

La capacité de notre oreille est très large : l’intensité des sons que notre système auditif est préparé à recevoir peut être très faible ou très intense, jusqu’à nous faire même mal à partir de 130 décibels. En réalité, cela peut être très douloureux et même traumatisant.

La hauteur — graves, médiums et aigus

Quand nous parlons de la hauteur ou du ton, nous parlons du nombre de cycles par seconde, mesuré en hertz. L’oreille humaine perçoit des sons de 16 à 20 000 Hz.

Les sons graves ont un effet hypnotique, aussi bien pour le bébé que pour l’adulte. C’est un effet vestibulaire : la stimulation continue par les basses fréquences provoque une saturation du système vestibulo-cochléaire qui réduit le tonus cortical. Dans la terminologie tomatisienne, on parle d’effet « désénergisant » — les graves atténueraient la charge énergétique du cortex plutôt que de calmer activement. C’est pourquoi le ronronnement d’un moteur de voiture peut induire le sommeil chez un nourrisson : non par un effet apaisant au sens affectif, mais par une réduction du tonus vestibulaire. Cette interprétation est propre à l’approche tomatisienne et diffère des approches qui associent les basses fréquences à un effet contenant ou rassurant. Les vibrations de moins de 16 cycles par seconde sont appelées infrasons.

Les sons moyens, que nous pouvons situer entre 1 000 et 3 000 Hz, peuvent déclencher des réactions chez les enfants présentant des difficultés de langage — cette zone (1 000–3 000 Hz) correspond à la bande passante du langage. Quand nous parlerons du test d’écoute, cette zone présente ces caractéristiques et, symboliquement, cette zone des sons moyens est très liée à l’image du père.

Les sons aigus, qui vont de 2 000–3 000 Hz à 8 000, produisent des effets dynamisants et apportent une joie de vivre qui nous surprend. Les effets produits par les harmoniques aigus situés au-dessus de 8 000 Hz sont beaucoup plus difficiles à analyser, mais pas pour cela moins importants. Rappelons que, quand nous parlions de ce qui concerne le son de la vie et ce que le fœtus perçoit avant de naître, en ce qui concerne les harmoniques aigus de la voix de la mère, les fréquences supérieures à 20 000 Hz sont appelées ultrasons.

La propagation du son

Il faut un corps sonore pour qu’il y ait du son, et il faut un corps dont les molécules soient capables de vibrer et transmettent le son. Le son ne se propage pas dans le vide. Il a toujours besoin d’un milieu capable de propager le son. Les corps mous et poreux absorbent l’énergie des ondes acoustiques et arrêtent la propagation du son, car ils sont de très mauvais conducteurs. C’est pourquoi, dans les salles acoustiques, on recouvre généralement les murs de matériaux mous et poreux pour éliminer la réverbération qui n’est pas intéressante. En revanche, les corps durs et élastiques avec une grande force de cohésion sont de très bons conducteurs du son, comme les métaux.

Les basses fréquences vont beaucoup plus loin que les hautes, mais elles apportent moins d’énergie, car elles ont un effet désénergisant sur le cortex. En revanche, les fréquences aiguës nous apportent beaucoup d’énergie, bien qu’elles aillent beaucoup moins loin.

Le son peut être produit par des impulsions — coups ou pulsations qui mettent un corps sonore à vibrer. Dans ce cas, le son dure le temps que le corps met à dissiper l’énergie reçue au moment du choc. Imaginons une règle en plastique ou métallique à laquelle nous donnons un coup : elle se met à vibrer et fait du bruit pendant qu’elle vibre ; quand l’énergie est épuisée et qu’elle est immobile, elle ne produit plus de son. Ou par un apport continu d’énergie, qui peut être un courant d’air ou un frottement. Si nous jouons d’une flûte, pendant que nous soufflons, il y a du son — nous pouvons maintenir la note aussi longtemps que nous le voulons. Ou si nous jouons du violon, pendant que nous frottons les cordes avec l’archet, nous aurons du son.

L’impédance acoustique

Un autre paramètre important à considérer pour notre travail est le concept d’impédance. L’impédance est une grandeur qui dépend de nombreux facteurs : du relief de la zone où nous sommes (s’il y a des montagnes ou des plaines, ou si nous sommes au bord de la mer), de l’humidité relative de l’air, de la température habituelle, etc. L’impédance est la plus ou moins grande résistance de l’air à la transmission des ondes sonores dans un lieu déterminé. C’est un concept très important car il influe sur la prononciation, la cadence et l’accent propres à chaque lieu, ainsi que sur la fluidité linguistique des locuteurs.

Selon la théorie de Tomatis sur l’impédance acoustique et la langue, un exemple illustratif est celui des Anglais des îles Britanniques émigrés en Amérique du Nord. L’impédance des îles Britanniques — un endroit froid avec beaucoup d’humidité, entouré de mer — est très différente de celle des grandes plaines des États-Unis. Cette impédance a fait changer l’anglais britannique pour ce que nous connaissons maintenant comme l’anglais américain. Tomatis postulait en outre que l’impédance acoustique du milieu influerait sur les caractéristiques physiques des locuteurs — hypothèse n’ayant pas fait l’objet de validation indépendante. Les Américains actuels ont une apparence physique plus semblable à celle qu’avaient les Amérindiens que les Anglais — qui sont beaucoup plus minces et filiformes, alors que les Américains sont beaucoup plus carrés et forts dans ce sens. Cette influence s’étend à la cadence et à l’accent. Dans les pays hispanophones d’Amérique : dans chaque pays, l’espagnol a une cadence et une fluidité, un accent différent qui ne peut pas s’expliquer seulement par le substrat qui y avait déjà dans ces pays — cela doit être attribué à l’impédance, selon Tomatis.

Le retard et la précession

L’oreille dispose de deux portes d’entrée : une externe (le tympan, régulée par le muscle du marteau) et une interne (la fenêtre ovale, contrôlée par le muscle de l’étrier). Il y a des temps d’adaptation. Quand nous parlerons de l’oreille électronique analogique, nous expliquerons aussi le rôle que jouent le retard et la précession. Ces temps d’adaptation pour l’ouverture de ces deux portes permettent l’attitude d’écoute, car le corps entier se met en posture d’écoute.

Le retard ou temps de latence est un paramètre purement neurologique : le laps de temps dont a besoin un système nerveux pour réagir. Il varie selon les individus et l’âge (plus long chez les enfants et les personnes âgées) ainsi que selon les langues. Dans le contexte de l’oreille électronique, ce paramètre est défini et réglé au Module 19.

La précession est un paramètre neurophysiologique complexe. Elle suppose passer de la sensation à la perception. C’est placer l’appareil auditif dans sa forme adaptative maximale pour qu’il capte ce que nous désirons percevoir. Le paquet sonore arrive d’abord au système auditif par voie osseuse, et le muscle de l’étrier modifie la pression lymphatique de la cochlée, qui, dans une première analyse, donne l’alerte et déclenche un état d’adaptation général. Cela permet une adaptation de la tension tympanique pour pouvoir percevoir correctement ce qui lui arrive par voie aérienne. Le système nerveux organise cybernétiquement la réponse de l’oreille pour qu’elle s’adapte, se mette en position d’écoute et se mette en état d’alerte pour capter le son. L’oreille est ainsi en état de précession vestibulo-cochléaire.

L’acte d’écouter est un acte volontaire. Il est actif et sélectif et, à ce titre, il est très soumis à la sphère émotionnelle. Le système nerveux est celui qui unit le physique et le psychique et les émotions provoquent des réponses dans le corps physique.

Les deux voies de l’oreille

La voie vestibulaire est la première à se développer. Dès les premiers jours après la conception, quand l’embryon est implanté dans l’utérus, le vestibule fonctionne comme un organe de relation spatiale et comme une centrale énergétique grâce aux stimuli qu’il reçoit et au jeu antigravitationnel. Dans sa partie primitive — la partie vestibulaire — l’oreille se développe et fonctionne dès l’origine comme une centrale énergétique et un organe de relation. Elle détecte les mouvements de la mère, évalue la gravité et perçoit la latéralité dans les trois plans de l’espace. En fait, le vestibule continuera à régir la statique et la motricité chez cet être en devenir.

La voie cochléaire se développe de pair de manière synergique avec le développement de l’aire corticale. Son début correspond essentiellement à la période fœtale — c’est-à-dire à partir du quatrième mois et demi. Depuis le début, les informations corporelles vestibulaires envoient des informations aux noyaux vestibulaires. Ensuite, ces noyaux évoluent vers des formes cochléaires, qui sont déjà des formes verbales. Plus tard, la notion d’espace s’intègre avec les informations de l’appareil visuel — lui-même contrôlé par les faisceaux vestibulo-mésencéphaliques.

Le labyrinthe vestibulaire est capable d’une certaine analyse fréquentielle, limitée à 750–800 Hz. Ce chiffre est fondamental : le point de bascule de l’oreille électronique est calé sur cette valeur, car en dessous le signal sollicite principalement le vestibule (tonus postural, équilibre), et au-dessus c’est la cochlée qui prend le relais pour l’analyse tonale fine et la recharge corticale. Le filtrage passe-haut (jusqu’à 9 000 Hz) décrit dans le Module 17 cible cette zone cochléaire haute, non le vestibule — ces deux fonctions sont complémentaires et non concurrentes.

Notre oreille fonctionne selon le principe du « tout ou rien » en ce qui concerne le son : en dessous du seuil minimum, un son n’est pas entendu. Et quand il atteint le seuil approprié, il devient audible. Nous passons d’un état de repos à un état d’activité — ce n’est pas progressif.

Alfred Tomatis a forgé le terme audiopsychophonologie. Plus que l’acoustique (branche de la physique qui étudie les sons), ce qui nous intéresse c’est la psychoacoustique — l’étude des relations entre les stimuli sonores et les sensations que nous expérimentons, produit des perceptions sonores. Les sensations sont le produit de la conscience des effets physiques perçus, comme résultat de l’intégration psychique de l’ensemble des informations provenant des récepteurs sensoriels.

🎯 Quiz — Module 6 : Le Son

⚠️ Validez ce quiz avant de continuer.

Q1. Quelle est la définition du retard (delay) dans l’Oreille Électronique ?

A) Le temps de filtrage
B) Le délai entre franchissement du seuil et commutation C1/C2
C) La durée d’une séance
D) Le temps de latence neurologique

Q2. V/F — Une octave correspond à un doublement de fréquence.

Q3. Qu’est-ce que la bande passante d’une langue ?

Q4. Définissez le son fondamental et les harmoniques.

✅ Réponses

1. B) Le retard (attack) est le délai entre le franchissement du seuil de bascule et la commutation effective C1→C2. Valeur standard : 0 (bascule instantanée).

2. Vrai. 125 Hz → 250 Hz = une octave. La courbe idéale progresse de 6 dB par octave.

3. La zone fréquentielle préférentielle dans laquelle la langue utilise ses sons caractéristiques. L’anglais : hautes fréquences ; le français : médiums-bas ; l’espagnol : médiums.

4. Le fondamental est la fréquence de base ; les harmoniques sont ses multiples entiers (2×, 3×, 4×…) — ils donnent le timbre. La richesse harmonique des aigus charge le cortex.