Présentation

Étudiante en Master Industries de la Langue à l'Université Stendhal Grenoble 3, j'ai eu l'opportunité d'effectuer un stage au sein de la société Nuxeo-InDesko

L'objectif du stage était de créer un outil d'extraction automatique d'affixes à partir d'une liste de mots, afin de pouvoir générer automatiquement, pour toute langue, un fichier d'affixes et un dictionnaire compatibles avec OpenOffice.org et son correcteur orthographique.

1. Contexte de l'étude

  • Ispell, dont le moteur Myspell d'OpenOffice.org est dérivé, intègre le script findaffix qui permet d'extraire les préfixes ou suffixes d'une liste de mots.

  • Il existe des fichiers d'affixes et dictionnaires de mots dont il nous a fallu étudier la structure afin de pouvoir les regénérer automatiquement.

  • Le programme munch permet de construire automatiquement un dictionnaire à partir d'un fichier d'affixes et d'une liste de mots, et le programme unmunch permet de reconstruire une liste de mots à partir d'un dictionaire et d'une fichier d'affixes.

  • L'algorithme de segmentation des mots qui est à la base de notre programme est extrait d'une thèse soutenue par Hervé Déjean. Cet algorithme est inspiré d'une méthode mise au point par Harris.

2. Description du programme

  • Le programme se déroule en plusieurs étapes:

    • L'étape 1 segmente les mots d'une liste de mots et donne une liste exhaustive de toutes les segmentations possibles

    • L'étape 2 filtre les segmentations qui ne donnent pas de radical ou d'affixe valides

    • L'étape 3 ordonne les résultats de l'étape précédente

    • L'étape 4 crée les règles d'affixation qui constituent le fichier d'affixes et génère ce fichier

    • L'étape 5 s'éxécute avec le programme munch et permet de générer le dictionnaire de mots à partir du fichier d'affixe issu des étapes précédentes et de la liste de mots de départ.

  • Les algorithmes des étapes 1, 2, 3 et 4.

  • La notice d'utilisation des différentes parties du programme.

3. Problèmes rencontrés

4. Tests et résultats

Conclusion

Notre outil fonctionne et est capable de générer un fichier d'affixes. Les résultats sont globalement plutôt satisfaisants, cependant il reste des ajustements à faire pour les améliorer :

  • augmenter un taux de compression parfois très moyen
  • filtrer le fichier dic afin de supprimer tous les flags qui génèrent de nombreux doublons dans la liste de mots
  • optimiser le programme pour en accélérer l'éxécution
  • adapter le programme au nouveau moteur Hunspell, remplaçant de Myspell


Page last modified on 04 décembre 2006 à 12h08