www.tlab.it

Criteri Strutturali


I criteri strutturali da rispettare riguardano le dimensioni del corpus e la sua suddivisone in parti.

Quanto alle dimensioni, T-LAB è stato testato con un corpus di 30 Megabytes, pari a circa 18.000 pagine in formato solo testo.

I limiti per la grandezza minima richiedono criteri di valutazione diversi; questo perché - sotto una certa soglia - le dimensioni del corpus possono compromettere l'attendibilità di molte analisi statistiche. A questo proposito, basta attenersi alle seguenti indicazioni: un minimo di 5.000 occorrenze (circa 30 K); oppure, nel caso di "domande aperte", un minimo di 50 risposte. In quest'ultimo caso, infatti, ogni risposta costituisce una diversa unità di contesto.


Ai fini del trattamento, il corpus può essere costituito da un unico testo senza ulteriori partizioni, da un unico testo ripartito secondo criteri stabiliti dall'utilizzatore (ad es. un libro suddiviso in capitoli), da più testi (ad es. diverse interviste o risposte a domande aperte) classificati attraverso l'uso di etichette che rinviano ad altrettante variabili o IDnumber. In tutti questi casi, il corpus è suddiviso in parti che devono essere individuate con precisi criteri formali.