www.tlab.it

Clasificación Temática de Documentos


Esta opción se activa únicamente cuando el corpus sometido a análisis se compone de al menos 20 documentos primarios (Máx 30.000).

Su uso permite construir clusters de documentos y explorar sus características por medio de operaciones/opciones similares a las descritas en la sección de la ayuda dedicada al Análisis Temático de Contextos Elementales.

Su especificidad consiste en el hecho de que la tabla analizada se compone de tantas líneas como contenga el documento del corpus, cada una de las cuales se representa como un vector de valores que indican la ocurrencia de la palabra presente en el mismo.

Por otra parte los outputs siguientes son diferentes:

Los documentos que pertenecen a cada cluster son ordenados por el valor decreciente de importancia y se pueden examinar en formato HTML.

En este caso el valor de importancia (score) asignado a cada documento (i) en el cluster (k) es obtenido aplicando la fórmula siguiente:

Donde:

i - se refiere al documento i;
k - se refiere al cluster k;
cos - es el símbolo del coseno;
di - es el vector normalizado de TFj, i IDFj, donde j se refiere a una palabra del documento i;
ck- es el vector normalizado de TFj, k IDFj, donde j se refiere a palabra del cluster k.

Usando los valores (scores) obtenidos por la fórmula antedicha, que son transformados en porcentajes, T-LAB hace disponible el archivo " Document_Membership_Degree.xls " (véase abajo) que contiene los clusters a los cuales pertenecen los diferentes documentos, tanto por el bisecting K-Means (donde cada documento pertenece exclusivamente a un cluster) como por el TF-IDF (donde cada documento es caracterizado da una pertenencia mezclada a varios clusters).



A la salida de esta función, algunos mensajes recuerdan que es posible explorar el cluster obtenido con otras herramientas T-LAB.

 

Seleccionando la opción "GUARDAR", será posible utilizar la variable < DOC_CLUST > (cluster de documentos) en todos los sucesivos análisis del mismo corpus realizados con otras herramientas T-LAB.