Textometre
Il s'agit d'une maquette de logiciel illustrant le principe de distinction des concepts de "trame" et de "cadre" pour l'exploration textométrique de ressources textuelles. Cette maquette implémente déjà quelques fonctions utilisables et peut-être utiles. Cette maquette illustre aussi les possibilités offertes par les nouveaux standards tels que XML ou Unicode pour la textometrie.
Le logiciel dans son état d'avancement permet de lire en entrée un fichier texte, en déclarant l'encodage des caractères utilisé, un le contenu textuel d'un fichier XML, ODT, RTF ou HTML (version 3.2).
Une fois un texte ouvert, le logiciel présente dans une fenêtre d'édition "trame/cadre" sa trame textuelle et un cadre de navigation. Le cadre est construit pour un fichier XML en utilisant le balisage présent dans le fichier et pour un fichier texte en utilisant une liste de séparateurs passée en paramètre.
Le logiciel découpe ensuite les éléments textuels en unités (lexicales?). Les algoritmes implémentés utilisables sont:
- découpage en "mots" en utilisant les propriétés des classes de caractères définit par Unicode
- découpage en "caractères" en utilisant les propriétés des classes de caractères définit par Unicode
- découpage en "mots" à l'aide d'une liste de caractères séparateurs que l'utilisateur peut définir.
- dans tous les cas, si tout ou partie d'une ressource est explicitement déclarée comme découpée (par l'utilisation d'étiquettes
item
du schémas hypothétique http://www.textometrie.fr/schemas/
), ce découpage est alors respecté.
L'écran présente deux fenêtres:
- La fenêtre "trame/cadre" qui montre à gauche le "lexique" des unités distinctes avec leur fréquence d'apparition puis une structure de navigation dans le document (son cadre) et à droite son contenu textuel (sa trame)
- La fenêtre "concordances" qui permet d'afficher le résultat des concordances recherchées
Il est possible de faire un 'drag and drop' d'une ou de plusieurs unités du "lexique" vers les "concordances" pour obtenir des concordances de ces unités. Ou bien de faire la même chose à partir d'une sélection dans la trame textuelle.
Il est possible aussi de faire un 'drag and drop' d'une ou de plusieurs unités du "lexique" vers la "trame" pour colorer toutes les occurences de ces unités. Ou bien de faire la même chose à partir d'une sélection de texte des "concordances".
En cliquant avec le bouton droit de la souris sur un ou plusieurs mots de la concordance on fait une nouvelle concordance pour le mot ou la suite de mot sélectionnée.
En cliquant avec le bouton droit de la souris sur un ou plusieurs mots de la trame textuelle on peut sélectionner dans le cadre le noeud de l'arborescence qui couvre cette sélection.
Un bouton sur chaque ligne de la concordance permet de retrouver celle-ci dans la trame textuelle.
L'éditeur "trame/cadre" possède une fonction de recherche de chaînes de caractères qui utilise ou non le langage des expressions régulières.
Les tris dans le lexique et dans les concordances sont paramétrables par le choix de la langue correspondante, sinon c'est le tri Unicode qui est utilisé.
- Lancer l'application avec webstart textometre.jnlp
- Consulter la documentation développeur API Javadoc
- Récupérer le code source (en local). ou sur le site du projet textometre de savannah http://savannah.nongnu.org/projects/textometre
- Exemple de fichiers:
- "Le père Duchesne" au format texte seul avec un encodage windows1252 download
- Le premier chapitre de la génèse avec les traductions en français, hébreu, anglais, chinois grec, russe et arabe au format xml download
- Même texte mais au format texte seul encodé en utf-8 download
Images écran du logiciel |
|
|
© Michel JACOBSON
e.mail: michel.jacobson@gmail.com