Instrument logiciel d'aide à l'analyse phonologique

Michel JACOBSON in "Actes de la Deuxième journée d'étude de la formation doctorale" Sorbonne, Université René Descartes-Paris V, 18 Novembre 1995

1- Les objectifs.

Construire un logiciel d'aide à l'analyse phonologique pour le linguiste. Ce logiciel devra lui permettre de stocker et de traiter automatiquement des informations de type linguistique. La démarche d'analyse du logiciel devra reproduire de manière aussi proche que possible le raisonnement du phonologue.

Le projet mené en DEA a plusieurs buts:

Il vise à offrir au linguiste phonologue un instrument à la fois de laboratoire et de terrain lui permettant de stocker et de traiter de l'information linguistique de manière automatique.
Il vise à apporter une critique constructive à la théorie phonologique, en essayant de transcrire la méthode sous forme algorithmique.
Il vise à apporter au sein du processus de reconnaissance de la parole, une solution aux multiples problèmes de variations inter et intra locuteur.

2- Les étapes de la démarche

L'étude de la démarche du phonologue nous a permis de distinguer 5 étapes dans le processus d'analyse phonologique. Le passage d'une étape à l'autre se fait au moyen d'une opération. Chaque étape donne un ensemble de résultats, d'informations dont l'étape suivante a besoin.

Nous distinguerons par ailleurs, indépendamment de l'analyse, un certain nombre de paramètres qui viendrons influencer cette dernière. Ces paramètres peuvent être considérés comme des pré-requis ou des options.

2.1- La collecte des données

Le but de cette étape est de se constituer une base de faits pour l'observation. Pour des raisons de commodité, il est préférable de garder trace des faits afin de pouvoir s'y référer ultérieurement. Nous limiterons notre étude du système phonologique au versant production. Les faits qui nous intéressent sont donc les productions langagières propres à des individus (idiolectes).

La technique du corpus nous permet de limiter notre matériel de travail à un ensemble fini déterminé à l'avance. Un corpus doit être à la fois suffisamment petit pour pouvoir être exploité entièrement, et suffisamment grand pour ne pas avoir à recourir à de nouvelles observations.

Le résultat de l'étape sera donc un corpus composé par une série de signes produits par un locuteur donné. Ces signes pourront être déterminés à l'avance (par exemple liste de SWADESH). Le versant signifié du signe, sera donné en orthographe classique. Le versant signifiant du signe sera transcrit en phonétique avec les signes de l'API.

2.2- La caractérisation phonétique

Chaque son, issu de la phase précédente, est caractérisé en termes d'indices (articulatoires si l'on utilise l'API). Nous obtenons ainsi une description phonétique associée à chaque son.

On passe en revue tous les signes du corpus. Si le signifiant d'un signe contient un caractère qui n'est pas connu de la liste des unités minimales (UM), on ajoute ce caractère à la liste en lui adjoignant son contexte d'apparition. Si le caractère est déjà connu dans la liste, on ajoute à la liste des contextes de l'UM correspondante, le nouveau contexte d'apparition.

Les caractères diacritiques sont automatiquement associés au caractère principal. Nous avons donc le choix entre:

Caractériser les unités en leur affectant systématiquement les caractères négatifs des diacritiques qu'ils ne possèdent pas (solution assez lourde, le [p] serait "consonne occlusive bilabiale sourde" mais aussi "non aspirée, non murmurée, non labialisée, non palatalisée, non vélarisée, ...)
L'autre solution (que nous avons adoptée pour notre application) consiste à ne caractériser phonétiquement une unité avec un diacritique négatif que si l'on trouve dans l'inventaire des sons une unité équivalente accompagnée du diacritique positif. Mais c'est déjà une démarche phonologique et non phonétique.

A la fin de cette étape nous obtenons la liste des Unités Minimales du corpus. La segmentation des signifiants est faite en utilisant la grille d'analyse que constitue l'A.P.I. La consultation de cette grille (A.P.I.) nous permet d'associer à chaque Unité Minimale un ensemble d'indices phonétiques qui caractérise le son en question.

2.3- La constitution du système d'oppositions théoriques

Il s'agit dans cette étape, non de donner à proprement dit une définition phonologique des unités, mais d'établir la base des oppositions théoriquement possibles dans la langue. Ce premier système d'opposition comprend toutes les oppositions qu'il est envisageable de faire entre les unités de sons (non distinctives) dégagées précédemment pour un même contexte.

Fonctionnellement, cela revient à attribuer à chaque unité de son un ensemble minimum de traits (sur la base de indices phonétiques) qui permet de la distinguer de toutes les autres unités de son du système. Toutes ces oppositions sont autant d'hypothèses formulées sur la langue. Nous chercherons à vérifier dans les étapes ultérieures si ces oppositions sont exploitées ou non par le locuteur.

A la fin de cette étape, nous obtenons un inventaire de postulants UMD par contexte, chaque postulant UMD étant caractérisé par un ensemble de traits théoriquement distinctifs qui le distinguent des autres postulants UMD de l'inventaire.

2.4- La validation du système d'oppositions théoriques

Il s'agit de déterminer si une opposition théoriquement possible est utilisée à des buts distinctifs. Nous utiliserons à cette fin la technique de la "commutation" dans des "paires minimales". Le critère utilisé dans cette étape est cette fois linguistique, il s'agit du sens. Il consiste à voir si une caractéristique du son à une fonction distinctive dans la langue, c'est à dire si elle permet de distinguer à elle seule différentes unités de sens.

La présence d'une paire minimale entraîne:

la validation de l'hypothèse d'opposition entre deux postulants UMD.
le passage du statut d'UMD aux deux postulants UMD.
les traits "hypothétiquement distinctif" entre les UMDs deviennent "empiriquement distinctif".

Terminologie:

Les unités issues par l'opération de commutation sont appelées unités minimales distinctives. Elles sont définies en termes de traits distinctifs. Elles seront notées entre barres obliques et parenthèses: /( )/. Nous obtenons un inventaire d'unités minimales distinctives par contexte. Les unités issues de la confrontation des différents inventaires seront appelées phonèmes et sont définies en termes de traits pertinents. Elles seront notées entre barres obliques: / /. Les traits pertinents comme les traits distinctifs sont notés entre quotes ou guillemets simples: ' '.

A l'issue de cette étape, nous obtenons donc un inventaire d'unités minimales distinctives par contexte, chaque unité minimale distinctive étant définie en terme de traits distinctifs.

2.5- La description du système

Cette étape consiste à mettre en évidence tous les phonèmes du système et à les caractériser en terme de traits pertinents. Elle sert aussi à décrire la structure du système, en relevant les ordres, séries, réseaux et corrélations. Enfin, c'est elle qui nous permet de donner:

les règles de fonctionnement en relevant les éventuelles neutralisations, variations contextuelles, assimilations.
les règles de réécriture qui permettent de passer d'une écriture de type phonétique à une transcription phonologique et inversement.

A l'issue de cette étape nous obtenons la liste des phonèmes avec leurs définitions en termes de traits pertinents. Les cas de neutralisation, distribution lacunaire, variation libre, variation contextuelle et fluctuation sont repérés dans cette étape.

3- Les opérations

3.1- La segmentation

Nous distinguerons avec H. A. GLEASON quatre types de problèmes :

La sur-différentiation, illustrée par le fait que l'on aura noté par différents symboles plusieurs variantes d'un même phonème.
La sous-différentiation, illustrée par le fait que l'on utilise le même symbole pour noter plusieurs phonèmes distincts.
La mauvaise segmentation lorsque l'on utilise un seul symbole pour une succession de plusieurs phonèmes, ou inversement lorsque l'on note par une succession de symboles un seul phonème.
Les erreurs de notation, imputables à la perception même du transcripteur.

Seuls sont gênants parmi ces défauts de transcription, ceux qui tentent à diminuer ou déformer l'information. Les autres (noter par une succession de symboles un phonème unique ou noter par différents symboles des variantes d'un même phonèmes) sont des problèmes que la démarche analytique du phonologue permettra de résoudre. Ces "erreurs" peuvent même être sources de renseignements quant au contenu perceptif des oppositions.

3.2- La permutation

Cette opération permet de tester l'indépendance des unités vis à vis de leur contexte.

Le langage oral étant par nature linéaire, nous distinguerons dans les influences possibles d'une unité celles venant des unités qui la précèdent et celles qui la suivent sur l'axe du temps. Cette étape est uniquement combinatoire, distributionnelle, nous ne ferons en aucun cas appel à un critère linguistique tel que le sens. Nous appelerons avec GOUDAILLIER cette opération la substitution. Les unités ainsi dégagées seront appelés: unités minimales.

Nous retiendrons six cas de variations distincts :

Soit l'unité y, cette unité sera dite indépendante du contexte si : toutes choses égales par ailleurs, on peut faire varier ce qui la précède, ce qui lui succède et si on peut faire varier l'unité elle même

Il s'agit de vérifier si plusieurs symboles sont systématiquement associés, c'est à dire répondre à la question "un ou plusieurs phonèmes?"

3.3- La commutation.

C'est l'opération qui permet de conférer le statut d'Unités Minimales Distinctives aux deux Unités Minimales qui varient dans une Paire Minimale. Une paire minimale est une paire de signes dont les signifiés diffèrent et dont les signifiants varient sur une seule unité minimale.

C'est aussi par cette opération que l'on teste les hypothèses sur les oppositions entre les UMDs.

3.4- Le rapprochement des inventaires.

Il s'agit de comparer les unités minimales distinctives des différents inventaires d'après leurs définitions en termes de traits distinctifs. Par exemple, deux unités ayant la même définition dans deux inventaires mais se pronon&ccedilant différemment seront considérées comme étant deux réalisations d'un même phonème.

4- Les paramètres

4.1- La grille d'observation (le système A.P.I.).

Nous utiliserons la grille que constitue l'alphabet phonétique international (A.P.I.). Il s'agira en effet de répartir nos différents faits acoustiques en un nombre fini de classes non ambigu's que constituent les différents caractères de l'A.P.I. Cette grille d'observation constitue une assez bonne classification pour les faits de langue, quelle que soit la langue. Une bonne classification permettant de classer tous les faits observés sans en laisser de coté, un fait ne pouvant faire partie que d'une seule classe à la fois. L'A.P.I offre pour le moins l'avantage d'une normalisation et donc un langage commun dans la communauté des linguistes et même à l'extérieur.

Une interface a été développée permettant à l'utilisateur de connaître la structure de l'A.P.I., les critères et les signes utilisés, ainsi que de changer les signes de l'A.P.I. par les siens propres.

4.2- La définition des contextes de pertinence.

Les contextes de pertinence sont dans un premier temps définis par défaut et sont au nombre de trois (initiale absolue, finale absolue et intérieure). Le critère permettant de les identifier est un critère strictement phonétique (présence ou absence d'une pause, d'un silence).Dans un deuxième temps des connaissances expertes sur la langue peuvent mettre en évidence des contextes de pertinence plus précis (inter vocalique, finale de syllabeÉ) et faisant intervenir des indices phonologiques. C'est à cet effet que nous avons construit un système d'options permettant au linguiste de définir ses propres contextes de pertinence.

5- Bilan (Etat d'avancement)

Le travail effectué pendant le DEA nous a permis:

d'établir les bases nécessaires en vue de mettre au point un outil d'aide à la description phonologique pour le linguiste.
de mettre au jour quelques problèmes méthodologiques.

5.1- Etat d'avancement.

Le système informatique développé permet de traiter un corpus constitué d'une liste de mots transcrit en A.P.I. d'une langue quelconque et d'en tirer:

la liste des unités minimales avec leur définition phonétique
les listes des unités minimales distinctives (une par contexte)
une définition fonctionnelle des UMDs
la liste des phonèmes
une définition fonctionnelle des phonèmes

Des traitements spécifiques permettent:

de chercher automatiquement toutes les paires minimales du corpus
de repérer les cas de neutralisation ou de distribution lacunaire
de repérer les cas de variations libres et combinatoires
de repérer les traits non validés par des paires minimales

L'architecture de l'application telle qu'elle a été con&ccedilue permet une souplesse indispensable au linguiste:

possibilité de changer les signes de l'A.P.I. par les siens propres
possibilité d'intervention à plusieurs niveaux en enrichissant le corpus directement ou par l'intermédiaire de l'éditeur de paires minimales en cours de traitement.
possibilité de recherche de chaînes de caractères comportant des critères linguistiques, dans le corpus
possibilité de définir soi-même les contextes pertinents
possibilité d'élever ou de réduire le niveau de contrainte de validation des unités minimales
possibilité de sauvegarder et d'éditer les données du corpus et les conclusions du traitement.

Sur le plan informatique l'application est con&ccedilue de manière à conserver une indépendance la plus grande possible entre les traitements et l'interface (menus, fenêtres, mais aussi la police de caractères et la structure de l'A.P.I.).

5.2- Les améliorations.

Les améliorations à apporter se situent sur deux axes:

Les améliorations techniques indispensables à l'utilisation du logiciel par des utilisateurs tout venant.
Les améliorations méthodologiques, conséquences d'une réflexion critique sur les méthodes de la phonologie.

L'application ne doit pas être considérée comme un produit fini, mais comme son squelette. Le cadre général à été tracé, mais certains cas particuliers qui n'ont pas été traités dans le cadre de la recherche pour le DEA, y trouvent leur place aisément :

traitement plus complet et systématique des affriquées
traitement des diphtongues
découpage syllabique
traitement des accents et des tons
le traitement des dimensions oppositionnelles multiples

5.3- Les ouvertures.

Un autre aspect devra aussi être examiné : l'association entre l'application développée et l'environnement informatique plus global, en entrée de l'application comme en sortie. Il s'agit d'offrir à l'application une ouverture du coté des systèmes analysant directement le flot de parole (digitalisation du son et traitement du signal).

L'entrée du système est en effet pour l'instant manuelle, et présuppose qu'une analyse phonétique à déjà été effectuée. Avec la diffusion de plus en plus large des outils multimédia, il serait à la fois souhaitable et facile de stocker le son digitalisé. Ce stockage permettrait de ne pas perdre l'information que l'étape phonétique supprime. Il serait donc possible d'avoir une circularité entre les points de vue phonétiques et phonologiques, offrant la possibilité de remettre en cause la description phonétique au vue d'une première analyse phonologique, et de recommencer tout le processus plusieurs foisÉ

Une ouverture de l'application, tant en entrée qu'en sortie, vers des systèmes types: base de données, systèmes experts, traitement de texte (déjà partiellement mis en place), serait souhaitable et nous permettrait plus de souplesse pour l'utilisateur habitué à traiter des données sur d'autres outils.

La production de règles à partir de l'analyse phonologique nous permettrait de mettre au point rapidement des systèmes (type système expert) faisant de la transcription automatique phonétique-phonologique et pourrait servir directement dans des applications de reconnaissance automatique de la parole.

5.4- La validation.

L'autre préoccupation est bien entendu la validation de l'application. Nous comptons bien évidemment confronter notre application aux faits, ce que nous avons déjà commencé avec un corpus d'un idiolecte de russe Ukrainien et un autre de Fran&ccedilais. Afin de valider l'application, il serait bon de mener une ou des études parallèles avec des linguistes de terrain,confrontés aux problèmes de la description d'une langue pas ou mal connue.

ORGANIGRAMME

GLEASON H.A., 1969, Introduction à la linguistique, Larousse, Paris, p 217

GOUDAILLIER J. P., 1990, Phonologie fonctionnelle expérimentale, Hambourg Buske Verlag, p. 41

michel.jacobson@gmail.com