Criterios Formales
El fichero de entrada en T-LAB (el corpus en input) debe estar en formato ASCII/ANSI, con extensión txt.
En el caso de un corpus constituido por un solo texto, y cuando el usuario no recurra a las variables, no se requiere ninguna otra operación: se puede pasar directamente a la fase de importación.
Por el contrario,
si se utilizan las variables y/o IDnumber, la preparación
del corpus requiere las operaciones siguientes.
Cada texto o subconjunto del mismo (las "partes" individuadas por
las variables) tienen que ir precedidas por una línea de codificación.
Cada línea de codificación tiene
este formato:
- comienza con una cadena de cuatro asteríscos (****) seguida por un espacio en blanco. T-LAB lee esta cadena como: "aquí comienza un texto o una unidad de contexto definida por el usuario".
- continua con la adición de cadenas compuestas por asteriscos aislados y de etiquetas que definen casos (IDnumber), variables y las respectivas modalidades.
- termina con "vuelta a empezar".
Aquí hay algunos ejemplos.
La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con tres variables - EDAD, SEXO y OCU (ocupación) - y sus modalidades (ADUL, FEM, PROF).
**** * EDAD _ADUL * SEXO _FEM * OCU_PROF
La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con las mismas variables y la etiqueta IDnumber.
**** *IDnumber_0001 * EDAD _ADUL * SEXO _FEM * OCU_PROF
La línea
siguiente introduce un texto (o un subconjunto del corpus) codificado con dos
variables: AÑO, PERI (periódicos):
**** * AÑO _98 * PERI_PAÍS
En cada línea de codificación, las reglas de
T-LAB
que se deben respetar son las siguientes:
1)
cada etiqueta (IDnumber, variables y modalidades) no puede ser distanciada por
los espacios en blanco.
2) cada etiqueta - tanto en el caso de las variables como en el de las modalidades
- no puede superar 15 caracteres (min. 2).
3) cada etiqueta de variables se debe ligar a la modalidad respectiva con un
guión bajo ("_").
4) entre dos variables, es decir antes del asterisco siguiente, se debe inserir
un espacio en blanco.
5) cada
variable y respectivas modalidades se
debe asignar para cada subconjunto del corpus.
6) las
variables utilizables son máximo
50,
cada una con un máximo de 150 modalidades.
7)
el número máximo de IDnumber es 30000.