www.tlab.it

Forma e Lemma


I software per l'analisi dei testi, in primo luogo, riconoscono le cosiddette forme grafiche, ovvero le stringhe di caratteri separati da spazi vuoti.
Poi, a seconda degli algoritmi implementati o a seconda delle categorie utilizzate dagli studiosi, si passa ai lessemi, ai lemmi, alle parole chiave, etc.

Nei dizionari linguistici che consultiamo, ogni voce corrisponde a un lemma che - generalmente - definisce un insieme di parole con la stessa radice lessicale (o lessema) e che appartengono alla stessa categoria grammaticale (verbo, aggettivo, etc.).

Le tabelle T-LAB, per tutte le unità lessicali presenti nel database del corpus, riportano due informazioni:

- la prima, denominata forma, contiene la trascrizione delle unità lessicali (singole parole, lessie o multiword) come "stringhe" riconosciute dal software;

- la seconda, denominata lemma, contiene le label (o tag) con la quali sono state raggruppate e classificate le unità lessicali.

A seconda dei casi, il lemma può essere:

- il risultato del processo di lemmatizzazione automatica;
- una voce di un dizionario personalizzato;
- una categoria che indica un gruppo di sinonimi;
- una categoria di analisi del contenuto;
- etc.