www.tlab.it

Criterios Formales


El fichero de entrada en T-LAB (el corpus en input) debe estar en formato ASCII/ANSI, con extensión txt.

En el caso de un corpus constituido por un solo texto, y cuando el usuario no recurra a las variables, no se requiere ninguna otra operación: se puede pasar directamente a la fase de importación.

Por el contrario, si se utilizan las variables y/o IDnumber, la preparación del corpus requiere las operaciones siguientes.

Cada texto o subconjunto del mismo (las "partes" individuadas por las variables) tienen que ir precedidas por una línea de codificación.


Cada línea de codificación tiene este formato:

- comienza con una cadena de cuatro asteríscos (****) seguida por un espacio en blanco. T-LAB lee esta cadena como: "aquí comienza un texto o una unidad de contexto definida por el usuario".

- continua con la adición de cadenas compuestas por asteriscos aislados y de etiquetas que definen casos (IDnumber), variables y las respectivas modalidades.

- termina con "vuelta a empezar".

Aquí hay algunos ejemplos.

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con tres variables - EDAD, SEXO y OCU (ocupación) - y sus modalidades (ADUL, FEM, PROF).

**** * EDAD _ADUL * SEXO _FEM * OCU_PROF

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con las mismas variables y la etiqueta IDnumber.


**** *IDnumber_0001 * EDAD _ADUL * SEXO _FEM * OCU_PROF

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con dos variables: AÑO, PERI (periódicos):

**** * AÑO _98 * PERI_PAÍS


En cada línea de codificación, las reglas de T-LAB que se deben respetar son las siguientes:

1) cada etiqueta (IDnumber, variables y modalidades) no puede ser distanciada por los espacios en blanco.
2) cada etiqueta - tanto en el caso de las variables como en el de las modalidades - no puede superar 15 caracteres (min. 2).
3) cada etiqueta de variables se debe ligar a la modalidad respectiva con un guión bajo ("_").
4) entre dos variables, es decir antes del asterisco siguiente, se debe inserir un espacio en blanco
.
5) cada variable y respectivas modalidades se debe asignar para cada subconjunto del corpus.
6) las variables utilizables son máximo 50, cada una con un máximo de 150 modalidades.

7) el número máximo de IDnumber es 30000.