Instrument logiciel d'aide à l'analyse phonologique
Michel JACOBSON in "Actes de la Deuxième journée d'étude
de la formation doctorale" Sorbonne, Université René Descartes-Paris
V, 18 Novembre 1995
1- Les objectifs.
Construire un logiciel d'aide à l'analyse phonologique pour le linguiste.
Ce logiciel devra lui permettre de stocker et de traiter automatiquement
des informations de type linguistique. La démarche d'analyse du
logiciel devra reproduire de manière aussi proche que possible le
raisonnement du phonologue.
Le projet mené en DEA a plusieurs buts:
-
Il vise à offrir au linguiste phonologue un instrument à
la fois de laboratoire et de terrain lui permettant de stocker et de traiter
de l'information linguistique de manière automatique.
-
Il vise à apporter une critique constructive à la théorie
phonologique, en essayant de transcrire la méthode sous forme algorithmique.
-
Il vise à apporter au sein du processus de reconnaissance de la
parole, une solution aux multiples problèmes de variations inter
et intra locuteur.
2- Les étapes de la démarche
L'étude de la démarche du phonologue nous a permis de distinguer
5 étapes dans le processus d'analyse phonologique. Le passage d'une
étape à l'autre se fait au moyen d'une opération.
Chaque étape donne un ensemble de résultats, d'informations
dont l'étape suivante a besoin.
Nous distinguerons par ailleurs, indépendamment de l'analyse,
un certain nombre de paramètres qui viendrons influencer cette dernière.
Ces paramètres peuvent être considérés comme
des pré-requis ou des options.
2.1- La collecte des données
Le but de cette étape est de se constituer une base de faits pour
l'observation. Pour des raisons de commodité, il est préférable
de garder trace des faits afin de pouvoir s'y référer ultérieurement.
Nous limiterons notre étude du système phonologique au versant
production. Les faits qui nous intéressent sont donc les productions
langagières propres à des individus (idiolectes).
La technique du corpus nous permet de limiter notre matériel
de travail à un ensemble fini déterminé à l'avance.
Un corpus doit être à la fois suffisamment petit pour pouvoir
être exploité entièrement, et suffisamment grand pour
ne pas avoir à recourir à de nouvelles observations.
Le résultat de l'étape sera donc un corpus composé
par une série de signes produits par un locuteur donné. Ces
signes pourront être déterminés à l'avance (par
exemple liste de SWADESH). Le versant signifié du signe, sera donné
en orthographe classique. Le versant signifiant du signe sera transcrit
en phonétique avec les signes de l'API.
2.2- La caractérisation phonétique
Chaque son, issu de la phase précédente, est caractérisé
en termes d'indices (articulatoires si l'on utilise l'API). Nous obtenons
ainsi une description phonétique associée à chaque
son.
On passe en revue tous les signes du corpus. Si le signifiant d'un signe
contient un caractère qui n'est pas connu de la liste des unités
minimales (UM), on ajoute ce caractère à la liste en lui
adjoignant son contexte d'apparition. Si le caractère est déjà
connu dans la liste, on ajoute à la liste des contextes de l'UM
correspondante, le nouveau contexte d'apparition.
Les caractères diacritiques sont automatiquement associés
au caractère principal. Nous avons donc le choix entre:
-
Caractériser les unités en leur affectant systématiquement
les caractères négatifs des diacritiques qu'ils ne possèdent
pas (solution assez lourde, le [p] serait "consonne occlusive bilabiale
sourde" mais aussi "non aspirée, non murmurée, non labialisée,
non palatalisée, non vélarisée, ...)
-
L'autre solution (que nous avons adoptée pour notre application)
consiste à ne caractériser phonétiquement une unité
avec un diacritique négatif que si l'on trouve dans l'inventaire
des sons une unité équivalente accompagnée du diacritique
positif. Mais c'est déjà une démarche phonologique
et non phonétique.
A la fin de cette étape nous obtenons la liste des Unités
Minimales du corpus. La segmentation des signifiants est faite en utilisant
la grille d'analyse que constitue l'A.P.I. La consultation de cette grille
(A.P.I.) nous permet d'associer à chaque Unité Minimale un
ensemble d'indices phonétiques qui caractérise le son en
question.
2.3- La constitution du système d'oppositions théoriques
Il s'agit dans cette étape, non de donner à proprement dit
une définition phonologique des unités, mais d'établir
la base des oppositions théoriquement possibles dans la langue.
Ce premier système d'opposition comprend toutes les oppositions
qu'il est envisageable de faire entre les unités de sons (non distinctives)
dégagées précédemment pour un même contexte.
Fonctionnellement, cela revient à attribuer à chaque
unité de son un ensemble minimum de traits (sur la base de indices
phonétiques) qui permet de la distinguer de toutes les autres unités
de son du système. Toutes ces oppositions sont autant d'hypothèses
formulées sur la langue. Nous chercherons à vérifier
dans les étapes ultérieures si ces oppositions sont exploitées
ou non par le locuteur.
A la fin de cette étape, nous obtenons un inventaire de
postulants UMD par contexte, chaque postulant UMD étant caractérisé
par un ensemble de traits théoriquement distinctifs qui le distinguent
des autres postulants UMD de l'inventaire.
2.4- La validation du système d'oppositions théoriques
Il s'agit de déterminer si une opposition théoriquement possible
est utilisée à des buts distinctifs. Nous utiliserons à
cette fin la technique de la "commutation" dans des "paires minimales".
Le critère utilisé dans cette étape est cette fois
linguistique, il s'agit du sens. Il consiste à voir si une caractéristique
du son à une fonction distinctive dans la langue, c'est à
dire si elle permet de distinguer à elle seule différentes
unités de sens.
La présence d'une paire minimale entraîne:
-
la validation de l'hypothèse d'opposition entre deux postulants
UMD.
-
le passage du statut d'UMD aux deux postulants UMD.
-
les traits "hypothétiquement distinctif" entre les UMDs deviennent
"empiriquement distinctif".
Terminologie:
Les unités issues par l'opération de commutation
sont appelées unités minimales distinctives. Elles sont définies
en termes de traits distinctifs. Elles seront notées entre barres
obliques et parenthèses: /( )/. Nous obtenons un inventaire d'unités
minimales distinctives par contexte. Les unités issues de la confrontation
des différents inventaires seront appelées phonèmes
et sont définies en termes de traits pertinents. Elles seront notées
entre barres obliques: / /. Les traits pertinents comme les traits distinctifs
sont notés entre quotes ou guillemets simples: ' '.
A l'issue de cette étape, nous obtenons donc un inventaire
d'unités minimales distinctives par contexte, chaque unité
minimale distinctive étant définie en terme de traits distinctifs.
2.5- La description du système
Cette étape consiste à mettre en évidence tous les
phonèmes du système et à les caractériser en
terme de traits pertinents. Elle sert aussi à décrire la
structure du système, en relevant les ordres, séries, réseaux
et corrélations. Enfin, c'est elle qui nous permet de donner:
-
les règles de fonctionnement en relevant les éventuelles
neutralisations, variations contextuelles, assimilations.
-
les règles de réécriture qui permettent de passer
d'une écriture de type phonétique à une transcription
phonologique et inversement.
A l'issue de cette étape nous obtenons la liste des phonèmes
avec leurs définitions en termes de traits pertinents. Les cas de
neutralisation, distribution lacunaire, variation libre, variation contextuelle
et fluctuation sont repérés dans cette étape.
3- Les opérations
3.1- La segmentation
Nous distinguerons avec H. A. GLEASON quatre
types de problèmes :
-
La sur-différentiation, illustrée par le fait que l'on aura
noté par différents symboles plusieurs variantes d'un même
phonème.
-
La sous-différentiation, illustrée par le fait que l'on utilise
le même symbole pour noter plusieurs phonèmes distincts.
-
La mauvaise segmentation lorsque l'on utilise un seul symbole pour une
succession de plusieurs phonèmes, ou inversement lorsque l'on note
par une succession de symboles un seul phonème.
-
Les erreurs de notation, imputables à la perception même du
transcripteur.
Seuls sont gênants parmi ces défauts de transcription, ceux
qui tentent à diminuer ou déformer l'information. Les autres
(noter par une succession de symboles un phonème unique ou noter
par différents symboles des variantes d'un même phonèmes)
sont des problèmes que la démarche analytique du phonologue
permettra de résoudre. Ces "erreurs" peuvent même être
sources de renseignements quant au contenu perceptif des oppositions.
3.2- La permutation
Cette opération permet de tester l'indépendance des unités
vis à vis de leur contexte.
Le langage oral étant par nature linéaire, nous
distinguerons dans les influences possibles d'une unité celles venant
des unités qui la précèdent et celles qui la suivent
sur l'axe du temps. Cette étape est uniquement combinatoire, distributionnelle,
nous ne ferons en aucun cas appel à un critère linguistique
tel que le sens. Nous appelerons avec GOUDAILLIER
cette opération la substitution. Les unités ainsi dégagées
seront appelés: unités minimales.
Nous retiendrons six cas de variations distincts :
Soit l'unité y, cette unité sera dite indépendante
du contexte si : toutes choses égales par ailleurs, on peut faire
varier ce qui la précède, ce qui lui succède et si
on peut faire varier l'unité elle même
Il s'agit de vérifier si plusieurs symboles sont systématiquement
associés, c'est à dire répondre à la question
"un ou plusieurs phonèmes?"
3.3- La commutation.
C'est l'opération qui permet de conférer le statut d'Unités
Minimales Distinctives aux deux Unités Minimales qui varient dans
une Paire Minimale. Une paire minimale est une paire de signes dont les
signifiés diffèrent et dont les signifiants varient sur une
seule unité minimale.
C'est aussi par cette opération que l'on teste les hypothèses
sur les oppositions entre les UMDs.
3.4- Le rapprochement des inventaires.
Il s'agit de comparer les unités minimales distinctives des différents
inventaires d'après leurs définitions en termes de traits
distinctifs. Par exemple, deux unités ayant la même définition
dans deux inventaires mais se prononçant différemment
seront considérées comme étant deux réalisations
d'un même phonème.
4- Les paramètres
4.1- La grille d'observation (le système A.P.I.).
Nous utiliserons la grille que constitue l'alphabet phonétique international
(A.P.I.). Il s'agira en effet de répartir nos différents
faits acoustiques en un nombre fini de classes non ambigu's que constituent
les différents caractères de l'A.P.I. Cette grille d'observation
constitue une assez bonne classification pour les faits de langue, quelle
que soit la langue. Une bonne classification permettant de classer tous
les faits observés sans en laisser de coté, un fait ne pouvant
faire partie que d'une seule classe à la fois. L'A.P.I offre pour
le moins l'avantage d'une normalisation et donc un langage commun dans
la communauté des linguistes et même à l'extérieur.
Une interface a été développée permettant
à l'utilisateur de connaître la structure de l'A.P.I., les
critères et les signes utilisés, ainsi que de changer les
signes de l'A.P.I. par les siens propres.
4.2- La définition des contextes de pertinence.
Les contextes de pertinence sont dans un premier temps définis par
défaut et sont au nombre de trois (initiale absolue, finale absolue
et intérieure). Le critère permettant de les identifier est
un critère strictement phonétique (présence ou absence
d'une pause, d'un silence).Dans un deuxième temps des connaissances
expertes sur la langue peuvent mettre en évidence des contextes
de pertinence plus précis (inter vocalique, finale de syllabeÉ)
et faisant intervenir des indices phonologiques. C'est à cet effet
que nous avons construit un système d'options permettant au linguiste
de définir ses propres contextes de pertinence.
5- Bilan (Etat d'avancement)
Le travail effectué pendant le DEA nous a permis:
-
d'établir les bases nécessaires en vue de mettre au point
un outil d'aide à la description phonologique pour le linguiste.
-
de mettre au jour quelques problèmes méthodologiques.
5.1- Etat d'avancement.
Le système informatique développé permet de traiter
un corpus constitué d'une liste de mots transcrit en A.P.I. d'une
langue quelconque et d'en tirer:
-
la liste des unités minimales avec leur définition phonétique
-
les listes des unités minimales distinctives (une par contexte)
-
une définition fonctionnelle des UMDs
-
la liste des phonèmes
-
une définition fonctionnelle des phonèmes
Des traitements spécifiques permettent:
-
de chercher automatiquement toutes les paires minimales du corpus
-
de repérer les cas de neutralisation ou de distribution lacunaire
-
de repérer les cas de variations libres et combinatoires
-
de repérer les traits non validés par des paires minimales
L'architecture de l'application telle qu'elle a été conçue
permet une souplesse indispensable au linguiste:
-
possibilité de changer les signes de l'A.P.I. par les siens propres
-
possibilité d'intervention à plusieurs niveaux en enrichissant
le corpus directement ou par l'intermédiaire de l'éditeur
de paires minimales en cours de traitement.
-
possibilité de recherche de chaînes de caractères comportant
des critères linguistiques, dans le corpus
-
possibilité de définir soi-même les contextes pertinents
-
possibilité d'élever ou de réduire le niveau de contrainte
de validation des unités minimales
-
possibilité de sauvegarder et d'éditer les données
du corpus et les conclusions du traitement.
Sur le plan informatique l'application est conçue de manière
à conserver une indépendance la plus grande possible entre
les traitements et l'interface (menus, fenêtres, mais aussi la police
de caractères et la structure de l'A.P.I.).
5.2- Les améliorations.
Les améliorations à apporter se situent sur deux axes:
-
Les améliorations techniques indispensables à l'utilisation
du logiciel par des utilisateurs tout venant.
-
Les améliorations méthodologiques, conséquences d'une
réflexion critique sur les méthodes de la phonologie.
L'application ne doit pas être considérée comme un
produit fini, mais comme son squelette. Le cadre général
à été tracé, mais certains cas particuliers
qui n'ont pas été traités dans le cadre de la recherche
pour le DEA, y trouvent leur place aisément :
-
traitement plus complet et systématique des affriquées
-
traitement des diphtongues
-
découpage syllabique
-
traitement des accents et des tons
-
le traitement des dimensions oppositionnelles multiples
5.3- Les ouvertures.
Un autre aspect devra aussi être examiné : l'association entre
l'application développée et l'environnement informatique
plus global, en entrée de l'application comme en sortie. Il s'agit
d'offrir à l'application une ouverture du coté des systèmes
analysant directement le flot de parole (digitalisation du son et traitement
du signal).
L'entrée du système est en effet pour l'instant manuelle,
et présuppose qu'une analyse phonétique à déjà
été effectuée. Avec la diffusion de plus en plus large
des outils multimédia, il serait à la fois souhaitable et
facile de stocker le son digitalisé. Ce stockage permettrait de
ne pas perdre l'information que l'étape phonétique supprime.
Il serait donc possible d'avoir une circularité entre les points
de vue phonétiques et phonologiques, offrant la possibilité
de remettre en cause la description phonétique au vue d'une première
analyse phonologique, et de recommencer tout le processus plusieurs foisÉ
Une ouverture de l'application, tant en entrée qu'en sortie,
vers des systèmes types: base de données, systèmes
experts, traitement de texte (déjà partiellement mis en place),
serait souhaitable et nous permettrait plus de souplesse pour l'utilisateur
habitué à traiter des données sur d'autres outils.
La production de règles à partir de l'analyse phonologique
nous permettrait de mettre au point rapidement des systèmes (type
système expert) faisant de la transcription automatique phonétique-phonologique
et pourrait servir directement dans des applications de reconnaissance
automatique de la parole.
5.4- La validation.
L'autre préoccupation est bien entendu la validation de l'application.
Nous comptons bien évidemment confronter notre application aux faits,
ce que nous avons déjà commencé avec un corpus d'un
idiolecte de russe Ukrainien et un autre de Français. Afin de
valider l'application, il serait bon de mener une ou des études
parallèles avec des linguistes de terrain,confrontés aux
problèmes de la description d'une langue pas ou mal connue.
ORGANIGRAMME
GLEASON H.A., 1969, Introduction à la
linguistique, Larousse, Paris, p 217
GOUDAILLIER J. P., 1990, Phonologie fonctionnelle
expérimentale, Hambourg Buske Verlag, p. 41
michel.jacobson@gmail.com