www.tlab.it

Normalizzazione del corpus


In T-LAB , la normalizzazione del corpus ha un duplice obiettivo:

a) consentire una corretto riconoscimento delle parole come forme grafiche.

b) risolvere preliminarmente alcuni casi di ambiguità.

Ciò comporta che T-LAB, in primo luogo, effettua una serie di trasformazioni del file in analisi: eliminazione di spazi vuoti in eccesso, marcatura degli apostrofi, aggiunta di spazi dopo i segni di interpunzione, riduzione delle maiuscole, etc.

In secondo luogo, T-LAB marca una serie di stringhe riconosciute come nomi propri (di persone e luoghi); quindi trasforma le sequenze di forme grafiche riconosciute come locuzioni o multiwords in stringhe unitarie da utilizzare come tali nel processo di analisi ( "nella misura in cui" e "il punto di vista" diventano quindi rispettivamente "nella_misura_in_cui" e "il_punto_di_vista).

I parametri di queste operazioni non sono modificabili dall'utilizzatore.


Nella fase di normalizzazione, per il corretto riconoscimento delle forme grafiche,
in T-LAB viene utilizzata la seguente lista di separatori:

, ; : . ! ? ' " ( ) < > + / = [ ] { }