Ce que T-LAB fait et ce qu' il vous permet de faire
T-LAB est un logiciel constitué d'un ensemble d'outils linguistiques et statistiques pour l'analyse des textes qui peuvent être utilisés dans les pratiques de recherche suivantes: Semantic Analysis, Content Analysis, Perceptual Mapping, Text Mining, Discourse Analysis.
Les outils T-LAB permettent d'effectuer trois types d'analyses:

A - analyses
des co-occurrences de mots-clés: indices
d'association, comparaisons entre paires de mots-clés, analyse des mots
associés, analyse des séquences, concordances;
B - analyses thématiques des unités
de contexte: modélisation des thèmes émergents, analyse
thématique de contextes élémentaires (ex. fragments de
texte, phrases ou paragraphes), séquences de thèmes, classement
thématique de documents, contextes clé de mots thématiques;
C - analyses comparatives des sous-ensembles du
corpus: analyse des spécifités, analyse des correspondances, analyse
des correspondances multiples, classification.
Les textes à analyser peuvent être des plus variés:
- un seul texte (ex. une interview, un livre, etc.);
- un ensemble de textes (ex. diverses interviews, pages web, articles de journal,
réponses à des questions ouvertes, etc.).
Tous
les textes peuvent être codifiés avec des variables
catégorielles et peuvent inclure un identificateur (IDnumber)
qui correspond à des unités de contexte ou à des cas (ex.
réponses à des questions ouvertes).
Chaque corpus (un ou plusieurs textes) doit être en format ASCII/ANSI avec l'extension .txt et ne peut pas excéder les 30 Mb (environ 18.000 pages).
Six étapes suffisent pour explorer rapidement les fonctions du logiciel:
1 - Sélectionner la langue de l'interface et cela du corpus à analyser

2 - Sélectionner un corpus à analyser

3 - Cliquer sur "GO" dans la première fenêtre de configuration
![]() |
Pendant
la phase d'importation du corpus, T-LAB
effectue les traitements suivants:
|
4 - Choisir un outil à l'intérieur d'un des sous-menus "Analyse"

5 - Examiner les résultats


6 - Utiliser l'aide contextuelle pour interpréter les graphiques et les tableaux.

Cette section introductive fournit les informations essentielles afin de comprendre
ce que T-LAB fait et comment
il peut être utilisé.
Du point de vue externe, l'utilisation du logiciel est organisée par l'interface, c'est-à-dire par le menu principal, par les sous-menus et les fonctions qui les composent.
D'un point de vue logique, en plus de l'interface usager, le système T-LAB est organisé par deux composantes principales:
Pour comprendre comment T-LAB fonctionne et comment il peut être utilisé, il est fondamental de savoir clairement quelles unités d'analyse sont archivées dans son database et quels algorithmes statistiques sont utilisés dans les diverses analyses. En effet, les tableaux de données analysées sont toujours constitués de lignes et de colonnes dont les titres correspondent aux unités d'analyse archivées dans le database, alors que les algorithmes règlent les processus qui permettent de repérer des relations significatives entre les données et d'extraire des informations utiles.
Les unités d'analyse de T-LAB sont de deux types: unités lexicales et unités de contexte.
A - les unités lexicales sont des mots, simples ou multiples, archivés et classifiés sur la base d'un critère. Plus précisément, dans le database T-LAB chaque unité lexicale constitue un record classifié avec deux champs: mot et lemme. Dans le premier champ, appelé mot, sont listés les mots ainsi qu'ils apparaissent dans le corpus, alors que dans le second, appelé lemme, sont listés les labels attribués à des groupes d'unités lexicales classifiées selon des critères linguistiques (ex. lemmatisation) ou au moyen de dictionnaires et de grilles sémantiques définies par l'utilisateur.
B - les unités de contexte sont des portions de texte dans lesquelles le corpus peut être subdivisé. Plus exactement, dans la logique T-LAB, les unités de contexte peuvent être de trois types:
B.1 documents
primaires, correspondants à la subdivision "naturelle"
du corpus (ex. interviews, articles, réponses à des questions
ouvertes, etc.), ou bien aux contextes initiaux définis par l'utilisateur;
B.2 contextes élémentaires, correspondants
à des unités syntagmatiques (ex. fragments de texte, phrases,
paragraphes) dans lesquelles chaque document primaire peut être subdivisé;
B.3 sous-ensembles du corpus, correspondants à
des groupes de documents primaires reconductibles à la même catégorie
(ex. interviews d' "hommes" ou de "femmes", articles d'une
année particulière ou d'un titre particulier, et ainsi de suite)
ou à clusters thématiques obtenus avec des instruments spécifiques
de T-LAB.
À partir de cette organisation du database, T-LAB permet - de façon automatique - d'explorer et d'analyser les relations entre les unités d'analyse de tout le corpus ou de ses sous-ensembles.
Dans T-LAB, la sélection d'un quelconque instrument d'analyse (clic de la souris) active toujours un processus semi-automatique qui, grâce à quelques simples opérations, génère un tableau input, applique un algorithme de type statistique et produit quelques outputs.
Un projet de travail "typique" dans lequel est utilisé T-LAB est constitué de l'ensemble des activités analytiques (opérations) qui ont pour objet le même corpus et est organisé par une stratégie et par un plan de l'utilisateur. Ainsi, il commence par le rassemblement des textes à analyser et s'achève par la rédaction d'un rapport.
La succession des diverses phases est illustrée dans le diagramme suivant:

NB:
- Les six phases énumérées, de la préparation du
corpus à l'interprétation des outputs, sont supportées
par des instruments T-LAB et sont
toujours réversibles;
- Grâce aux configurations automatiques T-LAB
il est possible d'éviter deux phases (3 et 4); toutefois, aux fins de
la qualité des résultats, leur réalisation
est fortement recommandée.
1 - La PRÉPARATION DU CORPUS
consiste en la transformation des textes à analyser dans un fichier (corpus)
qui peut être élaboré par le logiciel.
Chaque corpus qui doit être analysé, afin d'être importé dans T-LAB, doit être en mode ASCII/ANSI avec l'extension .txt.
Dans le cas de textes uniques (ou corpus considéré comme texte unique) on n'a pas besoin d' autre travail.
Autrement, si le corpus se compose de plusieurs documents primaires codifiés (variables et modalités), dans la phase de préparation on doit respecter quelques critères (Voir la section Préparation du Corpus).
Au terme de la phase de préparation on recommande de créer un
nouveau dossier de travail avec à l'intérieur le fichier corpus
à importer.
2 - L'IMPORTATION DU
CORPUS consiste en une série de processus
automatiques qui transforment le corpus en un ensemble de tableaux intégrés
dans le database T-LAB.
À partir de la sélection de l'option Nouveau Corpus, l'intervention de l'utilisateur (options avancées) est requise afin de définir les choix indiqués dans la fenêtre suivante.

N.B.:
- La sélection La sélection de la langue (obligatoire) détermine
le processus de lemmatisation. Actuellement la lemmatisation automatique est
disponible dans cinq langues: Italien, Français, Anglais, Espagnol et
Portugais. Dans tous les cas, sans lemmatisation automatique et/ou en utilisant
des dictionnaires personnalisés on peut analyser des textes dans toutes
les langues (ou dialectes) qui supportent les caractères ASCII (voir
l'option "other" ci-dessous);
- Les utilisateurs inexperts peuvent accepter les options présélectionnées
par T-LAB;
- Puisque les options de prétraitement déterminent le type et
la quantité d'unités d'analyse (c.-à-d. des unités
de contexte et des unités lexicales), les différents choix de
l'utilisateur déterminent différents résultats de l'analyse.
Pour cette raison, tous les outputs de T-LAB
(c.-à-d. graphiques et tableaux) montrés dans le manuel et dans
l'aide en ligne sont simplement indicatifs.
3 - L'UTILISATION
DES OUTILS LEXIQUE est finalisée à la vérification
de la correcte reconnaissance des unités
lexicales et à personnaliser leur classification,
c'est-à-dire à vérifier et à modifier les choix
automatiques faits par T-LAB.
Les modalités des diverses interventions sont illustrées dans les rubriques de l'aide (et du manuel) correspondantes.
En particulier on renvoie à la rubrique de l'aide (et du manuel) correspondante pour une description détaillée du processus Personnalisation du Dictionnaire.

4 - LA SÉLECTION DES MOTS-CLÉS consiste en la prédisposition d'un ou de plusieurs listes d'unités lexicales (mots, lemmes ou catégories) à utiliser pour construire les tableaux données à analyser.
L'option configurations automatiques rend disponible des listes de mots-clés sélectionnés par T-LAB; toutefois, puisque le choix des unités d'analyse est extrêmement important aux fins des élaborations successives, on conseille vivement l'utilisation des configurations personnalisées. De cette façon l'utilisateur pourra choisir de modifier la liste suggérée par T-LAB et/ou de construire des listes qui correspondent mieux à ses objectifs de recherche.

De toute façon, dans la construction de ces listes, valent les critères suivants:
- vérifier
l'importance quantitative (total des occurrences)
et qualitative (non banalité du sens) des divers items;
- vérifier les limitations (voir
note à la fin de cette section) des instruments analytiques que l'on
entend utiliser;
- vérifier si l'ensemble des items est compatible avec la propre stratégie
de recherche (voir point suivant: 5).
5 - L'UTILISATION DES OUTILS D'ANALYSE est finalisée à la production d'outputs (tableaux et graphiques) qui représentent des relations significatives entre les unités d'analyse et qui permettent de faire des inférences.
Au moment
actuel (version 7.3), T-LAB inclut
quinze différents outils d'analyse et chacun d'eux a sa propre logique;
c'est-à-dire, chacun d'eux emploie des algorithmes spécifiques
et produit des outputs spécifiques .
En conséquence, selon la structure des textes à analyser et les
buts à réaliser, l'utilisateur doit chaque fois décider
quels outils sont plus appropriés pour sa stratégie d'analyse.
À cette fin, outre la distinction entre outils pour l'analyse
des cooccurrences, pour l'analyse comparative
et pour l'analyse thématique, il est utile
de considérer que certains de ces derniers instruments permettent d'obtenir
d'ultérieurs sous-ensembles fondés
sur la similarité des contenus qui peuvent être inclus dans d'autres
étapes de l'analyse.
En particulier, les
outils Modélisation des Thèmes Emergents,
Analyse Thématique de Contextes Elémentaires
et Classification Thématique des Documents
nous permettent de trouver des clusters d'unités de contexte caractérisées
par des similarités dans la distribution des mots. En outre, ces clusters,
étant modalités d'une nouvelle variable obtenue à travers
l'analyse du contenu, peuvent être utilisés dans des analyses ultérieures
concernant les sous-ensembles du corpus.

Toutefois, compte tenu du fait que l'utilisation des outils T-LAB peut être circulaire et réversible, nous pouvons identifier trois points de démarrage (start points) qui correspondent aux trois sous-menus ANALYSE:
A : OUTILS
POUR LES ANALYSES DE CO-OCCURRENCES
Ces outils nous permettent d'analyser différentes typologies de relations entre les mots.

Selon les types de relations à analyser, les fonctions T-LAB
indiquées dans ce diagramme utilisent un ou plusieurs des instruments
statistiques suivants: Indices d'Association, Test
du Chi-Deux, Cluster Analysis, Multidimensional
Scaling et Chaînes Markoviennes.
Voici quelques exemples de output:


- Analyse des Mots Associés et Cartes Conceptuelles


B : OUTILS POUR LES ANALYSES COMPARATIVES
Ces outils nous permettent d'analyser différentes typologies de relations entre les unités de contexte.

L'Analyse des Spécificités permet de vérifier quels mots sont "typiques" ou "exclusifs" de chaque sous-ensemble du corpus.


L'Analyse des Correspondances permet d'explorer différentes typologies de relations (différences et ressemblances) entre les unités de contexte.


Selon les cas, l'utilisateur peut choisir entre trois techniques de classification (Cluster Analysis).


C : OUTILS POUR LES ANALYSES THÉMATIQUES
Ces
outils permettent de repérer, examiner et cartographer les "thèmes"
présents dans les textes analysés.
Puisque "thème" est un mot polysémique,
dans ce cas il est utile se référer à des définitions
opérationnelles. En fait, dans ces outils de T-LAB,
le mot "thème" est un label utilisé pour indiquer trois
entités différentes :
1- un mot-clé ("thématique")
spécifique utilisé pour extraire
un ensemble de contextes élémentaires dans lesquels ce mot est
associé à un groupe de mots spécifique présélectionnés
par l'utilisateur (voir Contextes-Clé de Mots
Thématiques);
2- un cluster thématique d'unité
de contexte caractérisé par les mêmes patterns de mots-clés
(voir Analyse Thématique des Contextes Elémentaires
et Classification thématique des Documents).
3- un élément d'un modèle probabiliste
qui représente chaque unité de contexte (soit un contexte élémentaire,
soit un document), comme généré par un mélange de
"thèmes" ou "topics" (voir Modélisation
des Thèmes émergentes).

En détail:
- l'outil Contextes Clé des Mots Thématiques , qui utilise le coefficient du cosinus comme mesure de similarité, permet d'extraire des ensembles de contextes élémentaires qui mettent en évidence la valeur thématique de mots-clés spécifiques.


- l'outil Modélisation des Thèmes Emergents (voir ci-dessous), qui utilise une méthode Bayesienne, met en évidence les "mélanges" décrits à travers leurs vocabulaires spécifiques; et les "thèmes" obtenus peuvent être utilisés soit pour classifier les unités de contexte soit pour construire des catégories qu'on peut appliquer dans une analyse future du contenu.


- soit l'outil Analyse Thématiques des Contextes Elémentaires, soit l'outil Classification Thématique des Documents fonctionnent de manière suivante:
a - ils réalisent une analyse des co-occurrences pour identifier les classes thématiques des unités de contexte;


6 - L' INTERPRÉTATION DES OUTPUTS consiste en la consultation des tableaux et des graphiques produits par T-LAB, en l'éventuelle personnalisation de leur format et dans le fait de faire des inférences sur la signification des relations représentées.
Dans le cas des tableaux, selon les cas, T-LAB permet de les exporter dans des fichiers avec les extensions suivantes: .DAT, .TXT, .XLS, .HTML. Ceci signifie que, en se servant de n'importe quel éditeur de textes et/ou d'un applicatif de la suite Microsoft Office, l'utilisateur peut facilement les importer et les réélaborer.
Dans le cas des graphiques, les sous-menus appropriés activés avec le clic droit de la souris permettent d'effectuer plusieurs opérations: zoom, maximisation, personnalisation et exportation des outputs en plusieurs formats.



Certains critères généraux pour l'interprétation des outputs T-LAB sont illustrés dans un papier cité dans la Bibliographie (Lancia F.: 2005) et disponible sur le site www.tlab.it. Dans ce dernier on propose l'hypothèse que les outputs des élaborations statistiques (tableaux et graphiques) sont un type particulier de textes, c'est-à-dire des objets multi-sémiotiques caractérisés par le fait que les relations entre les signes et les symboles sont ordonnées par des mesures qui renvoient à des codes spécifiques.
Dans d'autres termes, aussi bien dans le cas des textes écrits dans le langage naturel que dans ceux écrits dans le langage de la statistique, la possibilité de faire des inférences sur les relations qui organisent les formes du contenu est garantie par le fait que les relations entre les formes de l'expression ne sont pas casuelles (random); en effet, dans le premier cas (langage naturel) les unités signifiantes se succèdent ordonnées de façon linéaire (l'une après l'autre dans le chaîne du discours), alors que dans le second cas (tableaux et graphiques) les principes d'ordonnance sont constitués par les mesures qui déterminent l'organisation des espaces sémantiques multidimensionnels.
Même si les espaces sémantiques représentés dans les cartes T-LAB sont très variés, et chacun d'eux requiert des procédures interprétatives spécifiques, nous pouvons faire l'hypothèse que - en général - la logique du processus inférentiel est la suivante:
A
- relever une relation significative entre les unités "présentes"
sur le plan de l'expression (par ex. entre "données" des tableaux
et/ou entre "labels" des graphiques);
B - explorer et confronter les
traits sémantiques des mêmes unités et les contextes auxquels
elles sont mentalement et culturellement associées (plan du contenu);
C - construire une hypothèse
ou une catégorie d'analyse qui, dans le contexte défini par le
corpus, rendent raison des relations entre formes de l'expression et formes
du contenu.
