Corpus e Sottoinsiemi
Corpus: collezione di uno o più testi selezionati per un lavoro di analisi.
Sottoinsieme: una parte del corpus definita tramite l'uso di variabili e modalità.
T-LAB consente - in modo automatico - di esplorare e di analizzare le relazioni tra le unità di analisi di tutto il corpus o di suoi sottoinsiemi.


Qualche esempio di corpus:
un insieme di articoli tratti dalla stampa e che affrontano lo stesso argomento;
una o più interviste realizzate entro un progetto di ricerca;
uno o più libri dello stesso autore o che affrontano temi simili;
una
mailing-list scaricata da internet;
un insieme di risposte a una "domanda aperta" di un questionario;
Qualche esempio di sottoinsieme:
N.B.: Sottoinsiemi del corpus sono anche i "cluster tematici" di documenti o di contesti elementari ottenuti utilizzando i corrispondenti strumenti T-LAB.
Per essere importato in T-LAB il corpus deve essere costituito da un file in formato solo testo, con estensione .txt.
Nel caso di un corpus costituito da più testi, perché questo sia un insieme utilmente analizzabile, si richiede che le sue parti abbiano due caratteristiche che li rendano comparabili:
a) una qualche omogeneità tematica e/o del contesto in cui sono stati prodotti, in modo da ottenere dati tra loro confrontabili;
b) un equilibrato rapporto tra le loro dimensioni, sia in termini di occorrenze sia in termini di Kbytes, per non incorrere in "anomalie" di tipo statistico.
Entro la logica di T-LAB, il corpus è un database organizzato in record e campi. Più precisamente, i record sono costituiti dalle entità archiviate (testi, frammenti di testi, parole) e i campi sono costituiti dalle caratteristiche utilizzate per classificare le varie entità (gli autori dei testi, i contesti di riferimento, i tipi di parole, etc.).