www.tlab.it

Corpus y Subconjuntos


El corpus es una colección de uno o más textos seleccionados para el análisis.

Cada subconjunto del corpus se define por medio de una modalidad de una variable.

T-LAB permite explorar y analizar las relaciones entre las unidades de análisis de todo el corpus o de sus subconjuntos.

Algunos ejemplos de corpus:

Algunos ejemplos de subconjuntos:

NOTA: Algunos subconjuntos del corpus son los "clusters temáticos" de documentos o de contextos elementales obtenidos usando las herramientas correspondientes de T-LAB.

Para ser importado a T-LAB, el corpus debe ser un archivo con formato solo texto ASCII/ANSI, con extensión .txt.

En el caso de un corpus compuesto por varios textos, para hacer un conjunto correctamente analizable, se requiere que todas sus piezas tengan dos características que las hagan comparables:

a) una cierta homogeneidad temática y/o de contexto en el cual se han producido, para obtener datos comparables;

b) relaciones equilibradas entre sus dimensiones, tanto en términos de frecuencias como en términos de kilobytes, para no incurrir en anomalías estadísticas.

En la lógica de T-LAB, el corpus es una base de datos organizada en registros y campos. Más exactamente, los registros se componen de las entidades registradas (textos, segmentos de texto, palabras) y los campos se componen de las etiquetas usadas para clasificar las diversas entidades (los autores del texto, los contextos de referencia, los tipos de palabra, etc.).

Véase Preparación del corpus.