|
Lemmatizzazione
Nei dizionari linguistici che consultiamo, ogni
voce corrisponde a un lemma che -
generalmente - definisce un insieme di parole con la stessa radice
lessicale (o lessema) e che appartengono alla stessa categoria
grammaticale (verbo, aggettivo, etc.).
Di norma, la lemmatizzazione comporta
che le forme dei verbi vengono ricondotte all'infinito presente,
quelle dei sostantivi e degli aggettivi al maschile singolare,
quelle delle preposizioni articolate alla loro forma senza
articolo, e così via.
Ad esempio, le forme flesse "parliamo"
e "parlato", risultanti dalla combinazione di un'unica radice (<parl->) con due diversi suffissi
(<-iamo> <-ato>), sono ricondotte allo stesso lemma
"parlare".
Si danno tuttavia dei casi in cui la lemmatizzazione non segue la
regola della radice comune; in particolare, nella categoria dei
verbi irregolari. Ad esempio, "vado" e "andremo" sono entrambe
forme del lemma "andare".
Nella fase di importazione del corpus, T-LAB consente di effettuare un particolare
tipo di lemmatizzazione automatica che segue la logica del seguente
"albero".
Ovviamente, il dizionario di riferimento è quello
implementato in T-LAB.
Le sigle delle quattro categorie sono utilizzate in
molte tabelle, sempre nella colonna (o campo) "INF".
In particolare, la categoria "DIS"
("da distinguere") è costituita dai casi in cui T-LAB riconosce parole - in generale, nomi e
aggettivi - per le quali è opportuno non applicare la
lemmatizzazione standard; ciò per evitare che vengano appiattite le
differenze tra i diversi significati delle forme singolari e
plurali (ad es. "beni" e "bene", "culture" e "cultura"), oppure
delle forme femminili e maschili ("singola" e "singolo", "tecnica"
e "tecnico").
|