Lemmatizzazione
Nei
dizionari linguistici che consultiamo, ogni voce
corrisponde a un lemma che - generalmente - definisce un insieme di parole con
la stessa radice lessicale (o lessema) e che appartengono alla stessa categoria
grammaticale (verbo, aggettivo, etc.).
Di norma, la lemmatizzazione comporta che le forme
dei verbi vengono ricondotte all'infinito presente, quelle dei sostantivi e
degli aggettivi al maschile singolare, quelle delle preposizioni articolate
alla loro forma senza articolo, e cosė via.
Ad esempio, le forme flesse "parliamo" e "parlato",
risultanti dalla combinazione di un'unica radice
Si danno tuttavia dei casi in cui la lemmatizzazione non segue la regola della
radice comune; in particolare, nella categoria dei verbi irregolari. Ad esempio,
"vado" e "andremo" sono entrambe forme del lemma "andare".
Nella fase di importazione del corpus, T-LAB consente di effettuare un particolare tipo di lemmatizzazione automatica che segue la logica del seguente "albero".

Ovviamente, il dizionario di riferimento è quello implementato in T-LAB.
Le sigle delle quattro categorie sono utilizzate in molte tabelle, sempre nella colonna (o campo) "INF".
In particolare, la categoria "DIS" ("da distinguere") è costituita dai casi in cui T-LAB riconosce parole - in generale, nomi e aggettivi - per le quali è opportuno non applicare la lemmatizzazione standard; ciò per evitare che vengano appiattite le differenze tra i diversi significati delle forme singolari e plurali (ad es. "beni" e "bene", "culture" e "cultura"), oppure delle forme femminili e maschili ("singola" e "singolo", "tecnica" e "tecnico").