Corpus et Sous-ensembles
Le corpus est un ensemble des textes (un ou plus) rassemblés pour être analysés.
Chaque sous-ensemble du corpus est défini au moyen d'une modalité de quelque variable.
T-LAB permet d'explorer et d'analyser les relations entre les unités d'analyse de tout le corpus ou de ses sous-ensembles.


Quelques exemples de corpus:
-
un texte ou un document qui traite un sujet quelconque;
- un ensemble d'articles de journaux qui traitent le même sujet;
- un ou plus entretiens effectués pour le même projet de recherche;
- un ensemble de réponses à une ou plusieurs questions ouvertes
d'un questionnaire;
- une ou plusieurs transcriptions de focus-group.
Quelques exemples de sous-ensemble:
- un
ou plusieurs chapitres d'un livre;
- un ou plusieurs articles de journal édités dans la même
année;
- une ou plusieurs entrevues avec la même catégorie de personnes;
- un sous-ensemble de réponses à une question ouverte.
N.B.: D'autres sous-ensembles du corpus sont les "classes thématiques" des documents ou des contextes élémentaires obtenus en utilisant les outils correspondants de T-LAB.
Afin d'être importé dans T-LAB, le corpus doit se composer d'un fichier ASCII/ANSI avec l'extension .txt.
Dans le cas d'un corpus composé de plus d'un texte, afin d'en faire un ensemble correctement analysable, il faut que toutes ses pièces aient deux caractéristiques qui les rendent comparables:
a) une certaine homogénéité de leurs thèmes et/ou du contexte dans laquel ils ont été produits, ceci dans le but d'obtenir des données comparables entre elles;
b) un rapport équilibré entre leurs dimensions, en termes d'occurrences ou en termes de K bytes, ceci dans le but de ne pas encourir dans des anomalies statistiques.
Dans
la logique de T-LAB,
le corpus est une base de données organisées en entrées
(anglais : records) et en champs.
Avec plus de précision, les entrées se composent des entités
enregistrées (textes, segments de texte, mots) et les champs se composent
des étiquettes employées pour classifier les différentes
entités (les auteurs des textes, les contextes de référence,
etc.).