Normalizzazione del corpus
In T-LAB , la normalizzazione del corpus ha un duplice obiettivo:
a) consentire una corretto riconoscimento delle parole come forme grafiche.
b) risolvere preliminarmente alcuni casi di ambiguità.
Ciò comporta che T-LAB, in primo luogo, effettua una serie di trasformazioni del file in analisi: eliminazione di spazi vuoti in eccesso, marcatura degli apostrofi, aggiunta di spazi dopo i segni di interpunzione, riduzione delle maiuscole, etc.
In secondo luogo, T-LAB marca una serie di stringhe riconosciute come nomi propri (di persone e luoghi); quindi trasforma le sequenze di forme grafiche riconosciute come locuzioni o multiwords in stringhe unitarie da utilizzare come tali nel processo di analisi ( "nella misura in cui" e "il punto di vista" diventano quindi rispettivamente "nella_misura_in_cui" e "il_punto_di_vista).
I parametri di queste operazioni non sono modificabili dall'utilizzatore.
Nella
fase di normalizzazione, per il corretto riconoscimento delle forme grafiche,
in T-LAB viene utilizzata la seguente lista di
separatori:
, ; : . ! ? ' " ( ) < > + / = [ ] { }