TF-IDF
Questa misura, proposta da Salton (1989) nell'ambito dell'Information Retrieval, consente di valutare l'importanza di un termine (unità lessicale) all'interno di un documento (unità di contesto).
La sua formula
è la seguente:
w i,j = tf i,j x idf i (Term Frequency x Inverse Document Frequency)

Dove:
tf
i,j = numero delle occorrenze di i (un termine) all'interno
di j (un documento)
df i = numero dei documenti che contengono
i
N = totale dei documenti che costituiscono
il corpus in analisi
Il valore tf i,j (Term Frequency) può essere normalizzato nel modo seguente:
tf
i,j =
tf i,j / Max (f
i,j )
dove Max (f i,j ) è la frequenza
massima di i (un qualunque termine) all'interno di j
(documento).