6 Outils d’analyse

6.11 Spécificités

La commande Spécificités images51 calcule une statistique indiquant si les occurrences d'un mot ou d'une requête CQL quelconque paraissent en surnombre (ou en sous-effectif) dans chaque partie d'une partition, ou dans un sous-corpus donné (par rapport à son corpus parent).

6.11.1 Indice de spécificité

Afin d’analyser la spécificité d’apparition d’un événement textuel dans une partie d'un corpus plutôt qu’une autre, un événement étant défini comme l’apparition d’un mot ou d’une expression CQL quelconque, on peut progressivement estimer le nombre d’apparitions le plus vraisemblable de la manière suivante :

Dans TXM, le calcul de la probabilité qu’une forme A apparaisse f fois dans une partie p de longueur t, la forme apparaissant F fois en tout dans l’ensemble du corpus dont la longueur totale est de T occurrences, a été modélisé par Pierre Lafon [Lafon80] et peut s’exprimer formellement par l’équation 6.26 46.

Prob_{spécif}(card lbrace A in V mline A in p rbrace = f) = {{C_{F}^{f} times C_{T-F}^{t-f}}} over {C_{T}^{t}} Équation 6.26: Probabilité d'apparition dans une partie.

C_{n}^{k} = {fact {n} } over {fact {k}fact {(n - k)}} est le nombre d'échantillons de k éléments parmi n éléments, ou le nombre de parties de k éléments dans un ensemble de n éléments.

fact {n} = 1 times 2 times 3 times ... times (n - 1) times n

Le calcul exact de l'indice de spécificité utilisée dans TXM est celui du calcul de la probabilité du fait que l’événement apparaisse autant de fois qu’on l’observe effectivement dans la partie (soit f_{obs} ) ou plus fréquemment encore à concurrence de la taille de la partie (en suivant la loi hypergéométrique décrite par l’équation 6.26 qui dépend de f, t, F et T). Concrètement, on obtient cette mesure en sommant les valeurs de la probabilité Prob_{spécif} pour chaque fréquence d’apparition possible comme le montre l’équation 6.27 .

Prob_{spécif}(card lbrace A in V mline A in p rbrace geslant f_{obs}) = sum from{f=f_{obs}} to{card lbrace A in V mline A in p rbrace} Prob_{spécif}(card lbrace A in V mline A in p rbrace = f) Équation 6.27: Indice de spécificité

6.11.2 Calcul direct de l’indice de spécificité

La macro livrée avec TXM « ExecR » permet de calculer l'indice de spécificité pour différentes valeurs de ses paramètres47. En effet, par défaut, le script R exemple qu'elle exécute affiche la courbe de la distribution de probabilité de la spécificité.

Pour utiliser cette macro :

Pour reproduire la forme de la distribution correspondant à un cas précis se trouvant dans un tableau de résultats de spécificités, il suffit donc de lancer la macro ExecR avec les paramètres f, F, t et T correspondants à la cellule du tableau.

6.11.3 Présentation des résultats

Dans TXM, la spécificité est représentée par la partie entière des logarithmes en base 10 (log10) des estimations de probabilité de spécificité car, comme le nom hypergéométrique le suggère, les probabilités obtenues par les calculs varient dans un domaine exponentiel et l’ordre de grandeur de la probabilité suffit souvent à la comparer aux autres. On compare donc des ordres de grandeur plutôt que les probabilités elles-mêmes.

Par convention, la représentation de la sous spécificité (ou sous-représentation) se distingue de celle de la sur spécificité (ou sur-représentation) par un signe moins (-) situé devant l'indice. On s’intéressera alors aux faibles probabilités (donc aux valeurs de log10 importantes) qui rendent compte :

À ne pas confondre avec les fortes probabilités (par exemple supérieures à 5% de chance), donc aux valeurs de log10 faibles, qui indiqueront plutôt la banalité de l’apparition dans la partie (car prévisibles d'après le modèle des spécificités).

Pour les personnes intéressées par la valeur exacte de la probabilité calculée plutôt qu’au classement des événements entre eux par le biais de l'ordre de grandeur de cette probabilité (qui est, notre usage principal des estimations de probabilité), une macro TXM permet non seulement de réaliser directement le calcul de l’indice de spécificité en fonction des paramètres du modèle mais surtout de situer cette valeur dans la courbe de densité de probabilité (voir la section 6.11.2 page 1 « Calcul direct de l’indice de spécificité »).

6.11.4 Spécificités d'une partition

La commande Spécificités appliquée à une partition ouvre la fenêtre de paramètres suivante :

Les résultats sont présentés sous forme de tableau (voir l'exemple figure 6.31) :

L'illustration 6.31 présente les résultats de la commande Spécificités portant sur la forme graphique de tous les mots de la partition sur le type de discours du corpus DISCOURS. La tableau est trié dans l'ordre décroissant de la colonne d'indice de spécificité de la partie « Allocution radiotélévisée ». On peut y lire que les formes les plus spécifiques du discours de type « Allocution radiotélévisée » sont :

images70

Illustration 6.31 : Spécificités des mots de la partition sur la propriété de texte (ou variable) appelée « type » du corpus DISCOURS .

6.11.4.1 Tri des résultats

On peut trier le tableau en cliquant sur les entêtes de colonnes. Cliquer une seconde fois inverse l'ordre de tri.

Trier une colonne d'indice de façon décroissante, permet d'accéder rapidement aux mots considérés comme étant les plus sur-utilisés par rapport à l'ensemble du corpus. Les derniers mots de la liste sont considérés comme sous-utilisés et les mots intermédiaires – autour de l'indice 0 – sont considérés comme banals (ni sur- ni sous-représentés).

6.11.4.2 Visualisation graphique des indices de spécificité

Voir aussi la documentation commune à toutes les visualisations dans la section « 6.14 Visualisation graphique des résultats » page 1.

Les indices de spécificité peuvent être visualisés sous forme graphique. On sélectionne dans le tableau de résultats au moyen de la souris48 les lignes pour lesquelles on souhaite une visualisation puis on lance la commande « Calculer le graphique des lignes sélectionnées » via le menu contextuel. Cela produit un graphique comme illustré figure 6.32 :

Image11

Illustration 6.32 : Graphique de spécificité des lemmes « je », « nous » et « vous » des trois types de discours dans le corpus DISCOURS.

Dans le graphique :

Le graphique est exportable sous forme d'image via le bouton « Export » de la barre d'outils.

6.11.5 Spécificités d'une table lexicale

On peut appliquer le calcul de spécificités sur une table lexicale (issue d'une partition). Dans ce contexte, la propriété de mot à considérer a déjà été choisie et le calcul se lance directement.

6.11.6 Spécificités d'un sous-corpus

La commande Spécificités sur un sous-corpus permet de choisir la propriété de mot sur laquelle seront appliqués les calculs, par le biais d'une fenêtre de paramètres similaire à celle de la commande Lexique, comme on peut le voir sur l'illustration Erreur : source de la référence non trouvée page 1.

images72

Illustration 6.33 : Spécificités des formes graphiques de la partie « Allocution radiotélévisée » du corpus DISCOURS.

Les résultats sont présentés sous forme de tableau (voir l'exemple figure 6.33) :


46 On peut obtenir cette équation en procédant grossièrement de la manière suivante. Si il y a C_{F}^{f} manières d’obtenir f éléments parmi F et C_{T-F}^{t-f} manières de combiner les formes restantes du corpus alors il y a {C_{F}^{f} times C_{T-F}^{t-f}} manières d’obtenir f fois la forme A dans un échantillon de t occurrences. Le quotient de ce nombre par le nombre de manières d’obtenir des échantillons différents de t occurrences parmi T (c’est-à-dire C_{T}^{t} ) nous donne la probabilité recherchée.

47 https://groupes.renater.fr/wiki/txm-users/public/macros#execr

48 Shift-clic gauche permet de sélectionner plusieurs lignes contiguës. Ctrl-clic gauche permet de sélectionner plusieurs lignes non contiguës.