(This tutorial is also available in English )

Tutoriel d'installation de TreeTagger pour TXM

Introduction

Pour être en mesure d'automatiser la lemmatisation et l'étiquetage morphosyntaxique de votre corpus lors de son importation dans TXM, ce tutoriel va vous guider pour :

  1. Récupérer le logiciel TreeTagger et un ou plusieurs de ses modèles linguistiques parce que nous ne pouvons pas le livrer avec TXM* ;
  2. Indiquer à TXM où se trouve votre TreeTagger et le modèle linguistique choisi.

Tutoriel

    A. À l'aide d'un navigateur et de votre explorateur de fichiers

    En étant connecté à Internet :

  1. Télécharger l'archive du logiciel TreeTagger correspondant à votre système d'exploitation à partir du site de TreeTagger :

  2. Extraire le contenu de l'archive compressée (*.zip) dans un dossier nommé 'treetagger' :

    - Sous WindowsC:\Programmes\treetagger
    - Sous Windows XP    C:\Program Files\treetagger
    - Sous Mac OS X/Applications/treetagger
    - Sous Linux/usr/lib/treetagger

    Vérification : Une fois extrait, ce dossier doit contenir les dossiers et fichiers suivants : bin, cmd, doc, FILES, LICENSE et README.

  3. Créer le sous-dossier 'models' dans votre dossier 'treetagger' qui contiendra les modèles de langues de TreeTagger.
  4. Télécharger le modèle (fichier compressé '*.gz') de chaque langue dont vous souhaitez une lemmatisation à partir du site de TreeTagger :

  5. Décompresser chaque fichier compressé de modèle dans votre dossier 'models'.

    Sous Windows, si vous n'avez pas de logiciel extracteur-décompresseur compatible avec les fichiers '*.gz', nous vous recommandons le logiciel libre 7-zip.

  6. Renommer chaque fichier de modèle en utilisant les codes de langues ISO 639-1 à deux lettres.
    Par exemple :

    Sous Windows et Mac OS X : Par défaut, ces systèmes masquent à l'utilisateur les extensions de fichiers dont il gère le type. Dans ce cas, on peut se trouver dans une situation où l'on pense avoir renommé un fichier 'fr.bin' en 'fr.par' alors que le nom complet réel du fichier reste 'fr.par.bin'.
    Dans ce cas il faut accéder à l'affichage complet des noms de fichiers puis les renommer :

    • Sous Windows :
      1. Pour afficher les noms complets des fichiers avec leur extension, vous pouvez suivre ce tutoriel : Afficher-les-extensions-et-les-fichiers-caches-sous-windows
      2. Vous pouvez alors renommer le nom complet.
    • Sous Mac OS X :
      1. Faire un clic droit sur l'icone du fichier (Ctrl-clic avec la souris ou bien cliquer à deux doigts sur le trackpad)
      2. Lancer la commande 'Lire les informations'
      3. Éditer le champ 'nom et extension' : supprimer l'extension '.bin'.
      4. Fermer la fenêtre d'informations.

    Vérification : Le dossier 'models' doit contenir le fichier 'fr.par' qui fait environ 17 Mo, et éventuellement les fichiers d'autres modèles de langues ('en.par', 'de.par', etc.).

  7. B. Dans TXM

  8. Aller dans les préférences de réglage de TreeTagger (voir figure 1) :
    1. Menu 'Outils / Préférences'
    2. Aller à la page 'TXM / Avancé / TAL / TreeTagger'
    3. Renseigner le champ 'Chemin du dossier d'installation de TreeTagger' : cliquer sur 'Parcourir...', puis sélectionner votre dossier 'treetagger' (voir étape 2.) et terminer par 'OK'
    4. Renseigner le champ 'Chemin du dossier de modèles linguistiques de TreeTagger' : cliquer sur 'Parcourir...', puis sélectionner votre dossier 'models' et terminer par 'OK'
    5. Terminer par 'OK' pour enregistrer ces réglages
  9. Figure 1 : Préférences de TreeTagger dans TXM
  10. Vérifier votre installation

En cas de problème, vous trouverez de l'aide supplémentaire dans la FAQ.

Si vous ne parvenez pas à aller jusqu'au bout de cette procédure d'installation, veuillez nous contacter via la liste de diffusion des utilisateurs de TXM (txm-users@cru.fr) après vous être inscrit à la liste de diffusion txm-users.




Note : (*) La licence de diffusion de TreeTagger n'autorise pas la livraison de TreeTagger embarqué (ou inclus) dans un logiciel à usage commercial. Comme la licence de TXM n'interdit à personne d'avoir une activité commerciale avec TXM, nous respectons les souhaits de l'auteur de TreeTagger en n'incluant pas ce logiciel dans la distribution de TXM. Pour plus d'informations, voir le site web de TreeTagger