Clasificación Temática de Documentos
Esta opción se activa únicamente cuando el corpus sometido a análisis se compone de al menos 20 documentos primarios (Máx 30.000).
Su uso permite construir clusters de documentos y explorar sus características por medio de operaciones/opciones similares a las descritas en la sección de la ayuda dedicada al Análisis Temático de Contextos Elementales.
Su especificidad consiste en el hecho de que la tabla analizada se compone de tantas líneas como contenga el documento del corpus, cada una de las cuales se representa como un vector de valores que indican la ocurrencia de la palabra presente en el mismo.
Por otra parte los outputs siguientes son diferentes:

Los documentos
que pertenecen a cada cluster son ordenados por el valor decreciente de importancia
y se pueden examinar en formato HTML.
En este caso el valor de importancia (score) asignado a cada documento (i) en el cluster (k) es obtenido aplicando la fórmula siguiente:
![]()
Donde:
i
- se refiere al documento i;
k - se refiere al cluster k;
cos - es el símbolo del coseno;
di - es el vector normalizado de TFj, i IDFj, donde j se
refiere a una palabra del documento i;
ck- es el vector normalizado de TFj, k IDFj, donde j se
refiere a palabra del cluster k.
Usando los
valores (scores) obtenidos por la fórmula antedicha, que son transformados
en porcentajes, T-LAB hace disponible el
archivo " Document_Membership_Degree.xls " (véase abajo) que
contiene los clusters a los cuales pertenecen los diferentes documentos, tanto
por el bisecting K-Means (donde cada documento pertenece exclusivamente a un
cluster) como por el TF-IDF (donde cada documento es
caracterizado da una pertenencia mezclada a varios clusters).


A la salida de esta función, algunos mensajes recuerdan que es posible
explorar el cluster obtenido con otras herramientas T-LAB.
![]() |
Seleccionando la opción "GUARDAR", será posible utilizar la variable < DOC_CLUST > (cluster de documentos) en todos los sucesivos análisis del mismo corpus realizados con otras herramientas T-LAB.