Criterios Estructurales
Hay dos criterios estructurales que se tienen que
respetar: el tamaño del corpus
y su subdivisión en partes.
En cuanto al tamaño, T-LAB se ha probado con un corpus de 30Mb, equivalente a 18.000 páginas en formato texto (ASCII/ANSI).
Los límites para el tamaño mínimo requieren diversos criterios de la evaluación; esto es así porque, bajo un cierto umbral, el tamaño del corpus puede perjudicar la fiabilidad de muchos análisis estadísticos. Basta seguir estas simples instrucciones: utilice corpus con al menos 5.000 ocurrencias (aproximadamente 30 KB); si no, en el caso de preguntas abiertas, un mínimo de 50 respuestas. De hecho, en este último caso, cada respuesta constituye una unidad de contexto diferente.
Para ser
procesado, una corpus se puede componer de: un único texto sin otras
particiones, un único texto subdividido según los criterios establecidos
por el usuario (por ejemplo, un libro dividido en capítulos), varios
textos (por ejemplo, varias entrevistas o respuestas a preguntas abiertas) clasificados
mediante el uso de etiquetas, que remiten a otras tantas variables
o IDnumber.
En todos estos casos, el corpus se subdivide en partes que se deben definir con los criterios formales exactos.