Normalización
En T-LAB, la normalización del corpus tiene una meta doble:
a) permitir una detección correcta de las palabras como formas gráficas;
b) resolver previamente algunos casos de ambigüedad.
Esto significa que T-LAB, en primer lugar, realiza una serie de transformaciones del archivo que se está analizando: eliminación de los espacios vacios en exceso, adición del espacio después de signos de puntuación, reducción de las mayúsculas, etc.
En segundo lugar, T-LAB marca una serie de cadenas reconocidas como nombres propios (de persona y lugar); por tanto, convierte las secuencias de formas gráficas reconocidas como multipalabras en cadenas unitarias, para utilizarlas como tales durante el proceso de análisis ("en otras palabras" y "en tal caso" se transforman respectivamente en "en_otras_palabras" y "en_tal_caso").
Los parámetros de estas operaciones no pueden ser modificados por el usuario.
En la fase de normalización, para obtener un reconocimiento correcto de las formas gráficas, T-LAB utiliza la siguiente lista de separadores:
, ; : . ¡! ¿? ' " ( ) < > + / = [ ] { }