www.tlab.it

Analyse des Séquences


Cet outil T-LAB permet une analyse markovienne de deux genres de séquences:

A) celles au sujet des unités lexicales (mots, lemmes ou catégories) dans le réseau défini par le corpus analysé ou par un son sous-ensemble (voir bouton CORPUS dans l'image suivante);

B) celles enregistrées dans un fichier extérieur préparé par l'utilisateur (voir le bouton FICHIER dans l'image suivante).

Dans le cas (A), les séquences sont des rapports syntagmatiques entre les unités lexicales qui, pour chaque propre occurrence, ont un prédécesseur et un successeur: respectivement l'unité lexicale qui la précède et l'unité lexicale qui la suit.

En analysant une matrice dans laquelle sont enregistrés tous les prédécesseurs et tous les successeurs de chaque unité lexicales analysé (maximum 1500), T-LAB calcule les probabilités de transition (chaînes de Markov).

À la fin du traitement, T-LAB permet l'exploration du réseau du corpus par des graphiques et des tableaux qui sont tous clickables.

Dans les graphiques, les unités lexicales qui sont plus près du centre sont celles avant lesquelles (successeurs) ou après lesquelles (prédécesseurs) il y a la probabilité la plus élevée de trouver le mot-clé choisi.

Deux tableaux, pour chaque mot-clé sélectionné, montrent la liste triée des prédécesseurs et des successeurs.

La liste est en ordre décroissant selon les valeurs de probabilité ("PROB"). Par exemple, dans le tableau suivant, la probabilité que "territoire" suive "paix" est égale à 0.041, c.-à-d. le 4.1%.

L'option "triades" nous permet de visualiser quelques tables avec des séquences de trois éléments dans lesquels, selon le choix de l'utilisateur, le mot choisi est dans la première, dans la deuxième ou dans la troisième position. Pour chaque triade T-LAB montre les valeurs d'occurrence correspondantes.

N.B.: Dans les triades les mots vides ne sont pas inclus.


Selon la théorie des graphiques, les prédécesseurs et les successeurs de chaque nœud (dans ce cas-ci, chaque unité lexicale) peuvent être représentés au moyen de flèches (arcs) en entrée (in-degree = types de prédécesseurs) ou en sortie (out-degree = types de successeurs).

Par exemple, dans la table suivante "palestinien" a 93 types de successeurs et 75 types de prédécesseurs. Selon leur rapport (successeurs/prédécesseurs), il est possible de vérifier la variété sémantique engendrée par chaque noeud:
- si le rapport est plus grand que 1, le nœud est définie "source";
- si le rapport est égal à 1, le nœud est défini "relais";
- si le rapport est inférieur à 1, le nœud est défini "puits".

Dans le même tableau, pour chaque unité lexicale, la colonne "cover" (couverture) indique le pourcentage de ses occurrences précédées ou suivies des unités lexicales incluses dans la liste de l'utilisateur.

 

Quand les unités analysées "couvrent" la totalité de celles présentes dans le corpus, la valeur de "cover" est égale à 1; autrement, c'est une valeur inferieure. D'ailleurs: quand la valeur de "cover" est égale à 1, également les totaux des probabilités (des prédécesseurs et des successeurs) sont égales à 1; autrement, ils sont des valeurs inferieures. Dans les deux cas, le pourcentage "résiduel" est déterminé par le fait qu'il y a des prédécesseurs et des successeurs non inclus dans l'analyse.

Par exemple, la séquence représentée dans l'image suivante est constituée par 39 événements. De ces derniers, seulement 16 (les hypothétiques unités analysées) sont "couverts" (boîtes grises); ceci que certains d'eux, par exemple ceux correspondants aux occurrences de l'unité lexicale "A", ont des prédécesseurs et des successeurs non inclus dans l'analyse (boîtes blanches).

Différemment, quand l'utilisateur analyse un fichier extérieur tout les événements sont "couverts".

NB: Afin d'analyser un fichier extérieur, l'utilisateur doit placer un fichier Sequence.dat dans le répertoire de travail; puis, après l'ouverture d'un projet existant, il doit choisir l'Analyse de Séquences (l'option "utilisateur").

La méthode de calcul, les graphiques et les tables sont analogues à ceux déjà décrites (voir ci-dessus).

Le fichier Sequence.dat, qui peut contenir chaque genre d'étiquettes (par exemple les noms des parleurs dans une conversation, des catégories obtenues par analyse du contenu, des séquences d'événements, etc.), doit se composer par "N" lignes (minimum 50 maximum 10.000), chacune avec une étiquette d'un maximum de 50 caractères, sans signes de ponctuation ni espaces vides.

Les types d'étiquettes doivent être maximum 250.

Voici quelques exemples de fichier Sequence.dat dans le format correct:

Hamlet
King
Hamlet
Queen
Hamlet
Queen
Hamlet
King
Queen
Hamlet
King
Hamlet
Horatio
Hamlet
Horatio
... ... ...


activist
food
genetic
conservative
activist
genetic
conservative
activist
commerce
conservative
activist
conservative
biology
society
activist
... ... ...


event_01
event_03
event_02
event_03
event_03
event_01
event_05
event_02
event_05
event_01
event_02
event_04
event_03
event_01
event_01
... ... ...

Aussi bien après l'analyse des séquences (syntagmes) du corpus qu'après l'analyse d'un fichier externe (Sequence.dat), T-LAB produit trois tableaux dans le dossier MY-OUTPUT:
- T_Successors.xls, avec les probabilités de transition des successeurs;
- T_Predecessors.xls avec les probabilités de transition des prédécesseurs;
- Frequency_Average_Order.xls, disponible seulement quand le corpus se compose de textes courts comme les réponses aux questions ouvertes, avec la fréquence et le rang moyen d'apparition de chaque mot;
- Adjacency_Matrix.xls, disponible seulement quand la liste des unités lexicales inclut jusqu'à 250 items, qui peut être employé pour produire d'autres mesures et d'autres graphiques typiques de l'analyse de réseau (Network Analysis).

D'ailleursT-LAB nous permet d'exporter des fichiers GraphML qui peuvent être édités par le logiciel yEd (voir ci-dessous).