www.tlab.it

Normalización


En T-LAB, la normalización del corpus tiene una meta doble:

a) permitir una detección correcta de las palabras como formas gráficas;

b) resolver previamente algunos casos de ambigüedad.

Esto significa que T-LAB, en primer lugar, realiza una serie de transformaciones del archivo que se está analizando: eliminación de los espacios vacios en exceso, adición del espacio después de signos de puntuación, reducción de las mayúsculas, etc.

En segundo lugar, T-LAB marca una serie de cadenas reconocidas como nombres propios (de persona y lugar); por tanto, convierte las secuencias de formas gráficas reconocidas como multipalabras en cadenas unitarias, para utilizarlas como tales durante el proceso de análisis ("en otras palabras" y "en tal caso" se transforman respectivamente en "en_otras_palabras" y "en_tal_caso").

Los parámetros de estas operaciones no pueden ser modificados por el usuario.


En la fase de normalización, para obtener un reconocimiento correcto de las formas gráficas, T-LAB utiliza la siguiente lista de separadores:

, ; : . ¡! ¿? ' " ( ) < > + / = [ ] { }