Unità di Analisi
Le unità di analisi di T-LAB sono di due tipi: unità lessicali e unità di contesto.
A - le UNITA' LESSICALI sono parole, singole o "multiple", archiviate e classificate in base a un qualche criterio. Più precisamente, nel database T-LAB ogni unità lessicale costituisce un record classificato con due campi: forma e lemma. Nel primo campo, denominato forma, sono elencate le parole così come compaiono nel corpus, mentre nel secondo, denominato lemma, sono elencate le label attribuite a gruppi di unità lessicali classificate secondo criteri linguistici (es. lemmatizzazione) o tramite dizionari e griglie semantiche definite dall'utilizzatore.
B - le UNITA' DI CONTESTO sono porzioni di testo in cui può essere suddiviso il corpus. Più esattamente, nella logica T-LAB, le unità di contesto possono essere di tre tipi:
B.1 documenti
primari, corrispondenti alla suddivisione "naturale" del corpus
(es. interviste, articoli, risposte a domande aperte, etc.), ovvero ai contesti
iniziali definiti dall'utilizzatore;
B.2 contesti elementari , corrispondenti a unità
sintagmatiche di una o più frasi e definiti in modo automatico (o semi-automatico)
da T-LAB. Quindi, nel database T-LAB
ogni documento primario risulta costituito da uno o più contesti elementari;
B.3 sottoinsiemi del corpus, corrispondenti a gruppi
di documenti primari riconducibili alla stessa "categoria" (es. interviste
di "uomini" o di "donne", articoli di un particolare anno
o di una particolare testata, e così via).