Instrument logiciel d'aide à l'analyse phonologique

Michel JACOBSON in "Actes de la Deuxième journée d'étude de la formation doctorale" Sorbonne, Université René Descartes-Paris V, 18 Novembre 1995

1- Les objectifs.

Construire un logiciel d'aide à l'analyse phonologique pour le linguiste. Ce logiciel devra lui permettre de stocker et de traiter automatiquement des informations de type linguistique. La démarche d'analyse du logiciel devra reproduire de manière aussi proche que possible le raisonnement du phonologue.

Le projet mené en DEA a plusieurs buts:

2- Les étapes de la démarche

L'étude de la démarche du phonologue nous a permis de distinguer 5 étapes dans le processus d'analyse phonologique. Le passage d'une étape à l'autre se fait au moyen d'une opération. Chaque étape donne un ensemble de résultats, d'informations dont l'étape suivante a besoin.

Nous distinguerons par ailleurs, indépendamment de l'analyse, un certain nombre de paramètres qui viendrons influencer cette dernière. Ces paramètres peuvent être considérés comme des pré-requis ou des options.

2.1- La collecte des données

Le but de cette étape est de se constituer une base de faits pour l'observation. Pour des raisons de commodité, il est préférable de garder trace des faits afin de pouvoir s'y référer ultérieurement. Nous limiterons notre étude du système phonologique au versant production. Les faits qui nous intéressent sont donc les productions langagières propres à des individus (idiolectes).

La technique du corpus nous permet de limiter notre matériel de travail à un ensemble fini déterminé à l'avance. Un corpus doit être à la fois suffisamment petit pour pouvoir être exploité entièrement, et suffisamment grand pour ne pas avoir à recourir à de nouvelles observations.

Le résultat de l'étape sera donc un corpus composé par une série de signes produits par un locuteur donné. Ces signes pourront être déterminés à l'avance (par exemple liste de SWADESH). Le versant signifié du signe, sera donné en orthographe classique. Le versant signifiant du signe sera transcrit en phonétique avec les signes de l'API.

2.2- La caractérisation phonétique

Chaque son, issu de la phase précédente, est caractérisé en termes d'indices (articulatoires si l'on utilise l'API). Nous obtenons ainsi une description phonétique associée à chaque son.

On passe en revue tous les signes du corpus. Si le signifiant d'un signe contient un caractère qui n'est pas connu de la liste des unités minimales (UM), on ajoute ce caractère à la liste en lui adjoignant son contexte d'apparition. Si le caractère est déjà connu dans la liste, on ajoute à la liste des contextes de l'UM correspondante, le nouveau contexte d'apparition.

Les caractères diacritiques sont automatiquement associés au caractère principal. Nous avons donc le choix entre:

A la fin de cette étape nous obtenons la liste des Unités Minimales du corpus. La segmentation des signifiants est faite en utilisant la grille d'analyse que constitue l'A.P.I. La consultation de cette grille (A.P.I.) nous permet d'associer à chaque Unité Minimale un ensemble d'indices phonétiques qui caractérise le son en question.

2.3- La constitution du système d'oppositions théoriques

Il s'agit dans cette étape, non de donner à proprement dit une définition phonologique des unités, mais d'établir la base des oppositions théoriquement possibles dans la langue. Ce premier système d'opposition comprend toutes les oppositions qu'il est envisageable de faire entre les unités de sons (non distinctives) dégagées précédemment pour un même contexte.

Fonctionnellement, cela revient à attribuer à chaque unité de son un ensemble minimum de traits (sur la base de indices phonétiques) qui permet de la distinguer de toutes les autres unités de son du système. Toutes ces oppositions sont autant d'hypothèses formulées sur la langue. Nous chercherons à vérifier dans les étapes ultérieures si ces oppositions sont exploitées ou non par le locuteur.

A la fin de cette étape, nous obtenons un inventaire de postulants UMD par contexte, chaque postulant UMD étant caractérisé par un ensemble de traits théoriquement distinctifs qui le distinguent des autres postulants UMD de l'inventaire.

2.4- La validation du système d'oppositions théoriques

Il s'agit de déterminer si une opposition théoriquement possible est utilisée à des buts distinctifs. Nous utiliserons à cette fin la technique de la "commutation" dans des "paires minimales". Le critère utilisé dans cette étape est cette fois linguistique, il s'agit du sens. Il consiste à voir si une caractéristique du son à une fonction distinctive dans la langue, c'est à dire si elle permet de distinguer à elle seule différentes unités de sens.

La présence d'une paire minimale entraîne:

Terminologie:

Les unités issues par l'opération de commutation sont appelées unités minimales distinctives. Elles sont définies en termes de traits distinctifs. Elles seront notées entre barres obliques et parenthèses: /( )/. Nous obtenons un inventaire d'unités minimales distinctives par contexte. Les unités issues de la confrontation des différents inventaires seront appelées phonèmes et sont définies en termes de traits pertinents. Elles seront notées entre barres obliques: / /. Les traits pertinents comme les traits distinctifs sont notés entre quotes ou guillemets simples: ' '.

A l'issue de cette étape, nous obtenons donc un inventaire d'unités minimales distinctives par contexte, chaque unité minimale distinctive étant définie en terme de traits distinctifs.

2.5- La description du système

Cette étape consiste à mettre en évidence tous les phonèmes du système et à les caractériser en terme de traits pertinents. Elle sert aussi à décrire la structure du système, en relevant les ordres, séries, réseaux et corrélations. Enfin, c'est elle qui nous permet de donner: A l'issue de cette étape nous obtenons la liste des phonèmes avec leurs définitions en termes de traits pertinents. Les cas de neutralisation, distribution lacunaire, variation libre, variation contextuelle et fluctuation sont repérés dans cette étape.

3- Les opérations

3.1- La segmentation

Nous distinguerons avec H. A. GLEASON quatre types de problèmes : Seuls sont gênants parmi ces défauts de transcription, ceux qui tentent à diminuer ou déformer l'information. Les autres (noter par une succession de symboles un phonème unique ou noter par différents symboles des variantes d'un même phonèmes) sont des problèmes que la démarche analytique du phonologue permettra de résoudre. Ces "erreurs" peuvent même être sources de renseignements quant au contenu perceptif des oppositions.

3.2- La permutation

Cette opération permet de tester l'indépendance des unités vis à vis de leur contexte.

Le langage oral étant par nature linéaire, nous distinguerons dans les influences possibles d'une unité celles venant des unités qui la précèdent et celles qui la suivent sur l'axe du temps. Cette étape est uniquement combinatoire, distributionnelle, nous ne ferons en aucun cas appel à un critère linguistique tel que le sens. Nous appelerons avec GOUDAILLIER cette opération la substitution. Les unités ainsi dégagées seront appelés: unités minimales.

Nous retiendrons six cas de variations distincts :

Soit l'unité y, cette unité sera dite indépendante du contexte si : toutes choses égales par ailleurs, on peut faire varier ce qui la précède, ce qui lui succède et si on peut faire varier l'unité elle même

Il s'agit de vérifier si plusieurs symboles sont systématiquement associés, c'est à dire répondre à la question "un ou plusieurs phonèmes?"

3.3- La commutation.

C'est l'opération qui permet de conférer le statut d'Unités Minimales Distinctives aux deux Unités Minimales qui varient dans une Paire Minimale. Une paire minimale est une paire de signes dont les signifiés diffèrent et dont les signifiants varient sur une seule unité minimale.

C'est aussi par cette opération que l'on teste les hypothèses sur les oppositions entre les UMDs.

3.4- Le rapprochement des inventaires.

Il s'agit de comparer les unités minimales distinctives des différents inventaires d'après leurs définitions en termes de traits distinctifs. Par exemple, deux unités ayant la même définition dans deux inventaires mais se pronon&ccedilant différemment seront considérées comme étant deux réalisations d'un même phonème.

4- Les paramètres

4.1- La grille d'observation (le système A.P.I.).

Nous utiliserons la grille que constitue l'alphabet phonétique international (A.P.I.). Il s'agira en effet de répartir nos différents faits acoustiques en un nombre fini de classes non ambigu's que constituent les différents caractères de l'A.P.I. Cette grille d'observation constitue une assez bonne classification pour les faits de langue, quelle que soit la langue. Une bonne classification permettant de classer tous les faits observés sans en laisser de coté, un fait ne pouvant faire partie que d'une seule classe à la fois. L'A.P.I offre pour le moins l'avantage d'une normalisation et donc un langage commun dans la communauté des linguistes et même à l'extérieur.

Une interface a été développée permettant à l'utilisateur de connaître la structure de l'A.P.I., les critères et les signes utilisés, ainsi que de changer les signes de l'A.P.I. par les siens propres.

4.2- La définition des contextes de pertinence.

Les contextes de pertinence sont dans un premier temps définis par défaut et sont au nombre de trois (initiale absolue, finale absolue et intérieure). Le critère permettant de les identifier est un critère strictement phonétique (présence ou absence d'une pause, d'un silence).Dans un deuxième temps des connaissances expertes sur la langue peuvent mettre en évidence des contextes de pertinence plus précis (inter vocalique, finale de syllabeÉ) et faisant intervenir des indices phonologiques. C'est à cet effet que nous avons construit un système d'options permettant au linguiste de définir ses propres contextes de pertinence.

5- Bilan (Etat d'avancement)

Le travail effectué pendant le DEA nous a permis:

5.1- Etat d'avancement.

Le système informatique développé permet de traiter un corpus constitué d'une liste de mots transcrit en A.P.I. d'une langue quelconque et d'en tirer: Des traitements spécifiques permettent: L'architecture de l'application telle qu'elle a été con&ccedilue permet une souplesse indispensable au linguiste: Sur le plan informatique l'application est con&ccedilue de manière à conserver une indépendance la plus grande possible entre les traitements et l'interface (menus, fenêtres, mais aussi la police de caractères et la structure de l'A.P.I.).

5.2- Les améliorations.

Les améliorations à apporter se situent sur deux axes: L'application ne doit pas être considérée comme un produit fini, mais comme son squelette. Le cadre général à été tracé, mais certains cas particuliers qui n'ont pas été traités dans le cadre de la recherche pour le DEA, y trouvent leur place aisément :

5.3- Les ouvertures.

Un autre aspect devra aussi être examiné : l'association entre l'application développée et l'environnement informatique plus global, en entrée de l'application comme en sortie. Il s'agit d'offrir à l'application une ouverture du coté des systèmes analysant directement le flot de parole (digitalisation du son et traitement du signal).

L'entrée du système est en effet pour l'instant manuelle, et présuppose qu'une analyse phonétique à déjà été effectuée. Avec la diffusion de plus en plus large des outils multimédia, il serait à la fois souhaitable et facile de stocker le son digitalisé. Ce stockage permettrait de ne pas perdre l'information que l'étape phonétique supprime. Il serait donc possible d'avoir une circularité entre les points de vue phonétiques et phonologiques, offrant la possibilité de remettre en cause la description phonétique au vue d'une première analyse phonologique, et de recommencer tout le processus plusieurs foisÉ

Une ouverture de l'application, tant en entrée qu'en sortie, vers des systèmes types: base de données, systèmes experts, traitement de texte (déjà partiellement mis en place), serait souhaitable et nous permettrait plus de souplesse pour l'utilisateur habitué à traiter des données sur d'autres outils.

La production de règles à partir de l'analyse phonologique nous permettrait de mettre au point rapidement des systèmes (type système expert) faisant de la transcription automatique phonétique-phonologique et pourrait servir directement dans des applications de reconnaissance automatique de la parole.

5.4- La validation.

L'autre préoccupation est bien entendu la validation de l'application. Nous comptons bien évidemment confronter notre application aux faits, ce que nous avons déjà commencé avec un corpus d'un idiolecte de russe Ukrainien et un autre de Fran&ccedilais. Afin de valider l'application, il serait bon de mener une ou des études parallèles avec des linguistes de terrain,confrontés aux problèmes de la description d'une langue pas ou mal connue.

ORGANIGRAMME

GLEASON H.A., 1969, Introduction à la linguistique, Larousse, Paris, p 217

GOUDAILLIER J. P., 1990, Phonologie fonctionnelle expérimentale, Hambourg Buske Verlag, p. 41

michel.jacobson@gmail.com