www.tlab.it

TF-IDF


Questa misura, proposta da Salton (1989) nell'ambito dell'Information Retrieval, consente di valutare l'importanza di un termine (unità lessicale) all'interno di un documento (unità di contesto).

La sua formula è la seguente:

w i,j = tf i,j x idf i (Term Frequency x Inverse Document Frequency)

Dove:

tf i,j = numero delle occorrenze di i (un termine) all'interno di j (un documento)
df i = numero dei documenti che contengono i
N = totale dei documenti che costituiscono il corpus in analisi

 

Il valore tf i,j (Term Frequency) può essere normalizzato nel modo seguente:

tf i,j = tf i,j / Max (f i,j )

dove Max (f i,j ) è la frequenza massima di i (un qualunque termine) all'interno di j (documento).