www.tlab.it

Nuevo Corpus


La opción Nuevo corpus pone en marcha el proceso de importación, a través del cual T-LAB transforma el archivo texto predispuesto por el usuario en un conjunto de tablas integradas en la base de datos de sesión.

Las principales etapas de este proceso son las siguientes:

Para activar el proceso, en primer lugar hay que seleccionar el archivo a importar (ver imagen siguiente):

Sucesivamente aparece una ventana (véase abajo) en la cual el usuario puede elegir algunos tratamientos.

NOTA:
- Porque las diferentes opciones determinan el tipo y la cantidad de unidades de análisis (es decir las unidades de contexto y las unidades lexicales), diversas opciones determinan diversos resultados del análisis (véase abajo las opciones avanzadas). Por esta razón, todos los outputs de T-LAB (es decir gráficos y tablas) utilizados en el manual del usuario y en la ayuda en red son solo indicativos.

1 - LEMATIZACIÓN AUTOMÁTICA

La lematización automática se permite solamente en la lengua del interfaz.
El resultado del proceso del lematización se puede verificar por medio de la función Vocabulario y se puede modificar por medio de la función Personalización del Diccionario.

2 - SEGMENTACIÓN DE TEXTOS (CONTEXTOS ELEMENTALES)

Según la elección del usuario, los contextos elementales para el cómputo de co-ocurrencias pueden ser: frases, fragmentos de longitud comparable, párrafos o textos breves (por ejemplo, respuestas a las preguntas abiertas).

El fichero corpus_segments.dat contiene el resultado de la segmentación del corpus.

3 - CONTROL DE MULTI-PALABRAS

La opción "Básico" activa el uso automático de la lista multi-palabras de T-LAB.

Diferentemente la opción "Avanzado", disponible solamente con la lematización automática, permite las operaciones siguientes:
- verificar y modificar la lista de multi-palabras no incluidas en base de datos de T-LAB;
- importar y utilizar listas personalizadas de multi-palabras (archivos Multiwords.txt).

4 - CONTROL DE PALABRAS VACÍAS

La opción "Básico" activa el uso automático de la lista palabras vacías de T-LAB.

Diferentemente la opción "Avanzado" permite las operaciones siguientes:
- verificar y modificar la lista de palabras vacías presentes en el corpus;
- importar y utilizar listas personalizadas de palabras vacías (archivos StopWords.txt).

 


5 - SELECCIÓN DE PALABRAS CLAVE

Las opciones disponibles permiten que elijamos el método de la selección (TF-IDF o Chi-cuadrado) y la cantidad máxima de unidades lexicales que se incluirán en una lista usada por T-LAB para analizar los textos con la configuración automática.