www.tlab.it

TF-IDF


Esta medida, propuesta por G. Salton (1989), permite comprobar el peso de un termino (unidad lexical) en un documento (unidad de contexto).

Su fórmula es la siguiente:

w i,j = tf i,j x idf i (Term Frequency x Inverse Document Frequency)

En la que:

tf i,j = número de ocurrencias del termino i en el documento j
df i = número de documentos que contienen i
N = número de documentos en una colección (corpus)

El valor tf i,j (Frecuencia del Termino) puede ser normalizada en la manera siguiente:

tf i,j = tf i,j / Max (f i,j )

en la que Max (f i,j ) es la frecuencia máxima de un cualquier termino i en el documento j .