Présentation
Étudiante en Master Industries de la Langue à l'Université Stendhal Grenoble 3, j'ai eu l'opportunité d'effectuer un stage au sein de la société Nuxeo-InDesko
L'objectif du stage était de créer un outil d'extraction automatique d'affixes à partir d'une liste de mots, afin de pouvoir générer automatiquement, pour toute langue, un fichier d'affixes et un dictionnaire compatibles avec OpenOffice.org et son correcteur orthographique.
1. Contexte de l'étude
- Ispell, dont le moteur Myspell d'OpenOffice.org est dérivé, intègre le script findaffix qui permet d'extraire les préfixes ou suffixes d'une liste de mots.
- Il existe des fichiers d'affixes et dictionnaires de mots dont il nous a fallu étudier la structure afin de pouvoir les regénérer automatiquement.
- Le programme munch permet de construire automatiquement un dictionnaire à partir d'un fichier d'affixes et d'une liste de mots, et le programme unmunch permet de reconstruire une liste de mots à partir d'un dictionaire et d'une fichier d'affixes.
- L'algorithme de segmentation des mots qui est à la base de notre programme est extrait d'une thèse soutenue par Hervé Déjean. Cet algorithme est inspiré d'une méthode mise au point par Harris.
2. Description du programme
- Le programme se déroule en plusieurs étapes:
- L'étape 1 segmente les mots d'une liste de mots et donne une liste exhaustive de toutes les segmentations possibles
- L'étape 2 filtre les segmentations qui ne donnent pas de radical ou d'affixe valides
- L'étape 3 ordonne les résultats de l'étape précédente
- L'étape 4 crée les règles d'affixation qui constituent le fichier d'affixes et génère ce fichier
- L'étape 5 s'éxécute avec le programme munch et permet de générer le dictionnaire de mots à partir du fichier d'affixe issu des étapes précédentes et de la liste de mots de départ.
- Les algorithmes des étapes 1, 2, 3 et 4.
- La notice d'utilisation des différentes parties du programme.
3. Problèmes rencontrés
- des problèmes linguistiques
- et des problèmes informatiques
4. Tests et résultats
- tests sur plusieurs langues (Français, Angais, Allemand, Espagnol, Persan, Bengali)
- résultats détaillés : détails sur les fichiers obtenus
- synthèse des résultats : taux de compression des fichiers obtenus
- tests sur le français
Conclusion
Notre outil fonctionne et est capable de générer un fichier d'affixes. Les résultats sont globalement plutôt satisfaisants, cependant il reste des ajustements à faire pour les améliorer :
- augmenter un taux de compression parfois très moyen
- filtrer le fichier dic afin de supprimer tous les flags qui génèrent de nombreux doublons dans la liste de mots
- optimiser le programme pour en accélérer l'éxécution
- adapter le programme au nouveau moteur Hunspell, remplaçant de Myspell
