Análisis Temático de Contextos Elementales
a) resulta constituido de un conjunto de contextos elementales (ej. frases, párrafos, fragmentos de texto, respuestas a preguntas abiertas) caracterizados por los mismos patrones (patterns) de palabras clave;
b) puede ser descrito por las unidades lexicales (palabras, lemas o categorías) y por las variables (si presentes) que más caracterizan los contextos elementales de los cuales se compone.
Por muchos motivos, los resultados del análisis se pueden interpretar como mapas de isotopías (iso = igual; topos = lugar), es decir como mapas de temas "genéricos" o "específicos" (Rastier, 2002: 204) caracterizados por la co-ocurrencia de componentes semánticos.

Una caja de diálogo (véase arriba) permite que el usuario fije
algunos parámetros del análisis
En particular:
- el parámetro
(A) permite que el usuario fije el número máximo de clusters que
se incluirán en los outputs de T-LAB;
- el parámetro (B) permite que el usuario excluya del análisis
cualquier unidad del contexto que no contenga un número mínimo
de palabras clave incluidas en la lista que él está utilizando.
NOTA: Ambos
los parámetros antedichos producen cambios significativos en los resultados
del análisis solamente cuando el número de las unidades del contexto
es muy grande y/o cuando los textos analizados son cortos.
El procedimiento del análisis consiste en los pasos siguientes:
a - construcción
de una tabla unidades de contexto x unidades lexicales (hasta 150.000 filas
x 1500 columnas), con valores de tipo presencia-ausencia;
b -
cálculo de pesos TF-IDF y normalización
de los vectores (norma euclídea);
c -
clusterización de las unidades de contexto (medida de semejanza: coeficiente
del coseno; método de clusterización: bisecting K-means);
d - salvaguardia de las particiones obtenidas y, para cada una de ellas:
e - construcción de una tabla de contingencia unidades lexicales x clusters
(n x k);
f - test del chi cuadrado aplicado a todos los cruces unidades lexicales x clusters.
g - análisis de las correspondencias de la tabla de contingencia.
Así,
este procedimiento realiza un análisis de las co-ocurrencias
(pasos a-b-c) y, a continuación, un análisis
comparativo (e-f-g). En particular, el análisis comparativo utiliza
como columnas de las tablas de contingencia las modalidades (niveles o categorías)
de la "nueva variable" derivada del análisis de las co-ocurrencias
(modalidades de la nueva variable = clusters temáticos).
NOTA: Cuando el usuario decide repetir/aplicar los resultados de un análisis
anterior (tanto Análisis Temático de Contextos Elementales como
Modelización de los Temas Emergentes), T-LAB
realiza solamente un análisis comparativo de los clústers obtenidos
(puntos e-f-g)
término
del análisis, el usuario puede efectuar rápidamente las siguientes
operaciones:
1 - explorar las características de los clusters;
2 - explorar las relaciones entre clusters;
3 - explorar las relaciones entre clusters y variables;
4 - explorar las diversas particiones de los clusters;
5 - refinar los resultados de la partición elegida y, si es necesario,
repetir unos pasos antedichos (1,2,3);
6 - asignar etiquetas a los clusters;
7 - verificar qué contextos elementales pertenecen a qué clusters;
8 - verificar el peso de cada uno de los contextos elementales dentro del cluster
al que pertenece;
9- obtener una clasificación temática de los documento (proporcionada
solamente cuando el corpus se compone por lo menos de 2 documentos primarios
y éstos no son textos breves como las respuestas a preguntas abiertas);
10- archivar la partición seleccionada para explorarla con otras herramientas
T-LAB.
En detalle:
1 - Explorar
las características de los clusters
Haciendo
clic en el botón características,
para cada cluster se muestran los valores siguientes: Chi-cuadrado y sumatoria
de contextos elementales en los que cada característica (lemma o variable)
se encuentra presente, bien sea en el interior del cluster seleccionado ("IN
CLUST") o en el interior del conjunto analizado ("IN TOT"). Además,
la columna "CAT" indica si la característica ha sido seleccionada
por el usuario ("A"), con la función Configuración
del Análisis, o si ha sido sugerida por T-LAB
como descripción "suplementaria" ("S").
En el caso del chi cuadrado la estructura de la tabla analizada es la siguiente:

Donde:
nij se refiere a las ocurrencias de la palabra (a) dentro del cluster
seleccionado (A)
Nj se refiere a todas las ocurrencias de la palabra (a) dentro del corpus
(o del subconjunto) analizado
Ni se refiere a todas las ocurrencias de palabras dentro del cluster
seleccionado (A)
N se refiere a todas las ocurrencias de la tabla de la contingencia palabras
x clusters.
Un informe HTML (ver a continuación) permite verificar en detalle las características de los clusters. En éste, además de la lista de palabras típicas, se muestran los contextos elementales que más caracterizan el cluster seleccionado, ordenados de manera descendente según el respectivo peso (score).

Gráficos a tarta y histogramas (véase abajo) permiten verificar el porcentaje de unidades de contexto que pertenece a cada cluster.


2 - Explorar las relaciones entre clusters
Algunos
gráficos, obtenidos por medio de Análisis
de Correspondencias, permiten explorar las relaciones entre clusters
en espacios bidimensionales.
De forma más específica:
- para explorar las distintas combinaciones de los ejes factoriales es suficiente
seleccionarlos en los boxes apropiados ("Eje X", "Eje Y");
- para cada una de las combinaciones (X-Y), es posible visualizar los distintos
tipos de elementos (clusters, lemas y variables).

Todos los gráficos pueden ser personalizados usando el apropiado cuadro de diálogo (hacer clic en el botón derecho del ratón). Además cuando los clústers temáticos son más de tres, sus relaciones pueden ser exploradas en gráficos 3D (ver abajo).



Las características de cada polo factorial pueden ser exploradas haciendo clic en los botones marcados en rojo.

Un clic en el botón correspondiente permite que usted visione y guarde el archivo que contiene los resultados completos del análisis: valores propios, coordenadas, aportes absolutos y relativos, valores tes: valores propios, coordenadas, aportes absolutos y relativos, valores test.

Una
opción específica (véase más abajo) nos permite
visualizar/exportar la tabla de contingencia y
crear gráficos que muestran la distribución de cada palabra dentro
de los clusters.
Además, haciendo clic en específicas células de la tabla,
es posible crear un archivo HTML que incluye todos los contextos elementales
en que la palabra en la fila está presente en el cluster correspondiente.


3 - Explorar las relaciones entre clusters y variables
Algunos histogramasnos permiten verificar las relaciones entre los clusters y las variables.

Además es posible explorar ulteriores relaciones entre clusters y variables con las opciones disponibles en la sección Análisis factorial" (ver más arriba).
4 - Explorar las diversas particiones de los clusters
Posto
que
el algoritmo usado produce una clusterización jerárquica, el usuario
puede explorar fácilmente diferentes soluciones del análisis:
particiones de 3 a 50 clusters.
Para cada una de las particiones obtenidas existe una tabla (ver a continuación)
con los siguientes valores:
- "Index", que corresponde a la relación entre la varianza
intercluster y la varianza total;
- "Gap", que indica la diferencia entre el valor del índice
y el de la partición inmediatamente anterior;
- Número del cluster "hijo" (child) obtenido por medio de la
bi-sección del "progenitor" (parent) correspondiente.
La opción particiones permite explorar las características de las soluciones disponibles (clic en los ítems de la tabla).

Además, la opción dendrograma permite verificar el árbol de las distintas bi-secciones.

5 - Refinar los resultados de la partición elegida
Después de haber explorado diversas soluciones, el usuario puede refinar los resultados de la partición elegida y, si es necesario, repetir unos pasos antedichos (1,2,3).
Esta opción
de T-LAB
permite que el usuario suprima del análisis todas las unidades del contexto
cuya pertenencia a un cluster no satisface los criterios siguientes:
a) por cada unidad de contexto, el cluster asignado mediante el método
del bisecting K-Means (unsupervised clustering) y aquel asignado mediante el
clasificador Naive Bayes (supervised clustering) deben
ser los mismos;
b) el valor máximo de la probabilidad a posteriori que corresponde a
la pertenencia de la i-unidad de contexto al k-cluster debe ser, en términos
porcentuales, por lo menos 50% más grande que sus valores restantes (es
decir las probabilidades a posteriori en otros clusters).

Todos los resultados de este cómputo están en una tabla exportada por T-LAB (véase abajo), la cuál contiene los valores de probabilidad expresados en términos porcentuales.

6 - Asignar etiquetas a los clusters
Una función
de
T-LAB permite atribuir etiquetas a los clusters.
(Nota: Al primer uso, algunas de las etiquetas son asignadas automáticamente
por el programa).

Las etiquetas atribuidas a los distintos clusters pueden ser visualizadas en los distintos gráficos disponibles (ver a continuación).

7
- Verificar qué contextos elementales pertenecen
a qué clusters;
8-
Verificar el peso de cada uno de los contextos elementales dentro del cluster
al que pertenece;
9-
Obtener una clasificación temática de los documentos.

De hecho el botón Miembros permite exportar tres tipos de tablas en formato MS Excel:
a - " Cluster_Partitions.xls " (véase abajo) con todas las correspondencias de unidad de contexto x cluster en el interior de las distintas particiones;

b - Themes-Contexts.xls
(véase abajo) con las correspondencias de unidad de contexto x cluster
en el interior de la partición seleccionada.

En particular,
el valor de importancia (score) asignado a cada contexto elemental (j) que pertenece
al racimo (k) viene de la fórmula siguiente:

Donde:
Scorej = valor de la importancia asignado al contexto elemental (j);
SXij
= suma de los valores del Chi-cuadrado asignados a las palabras clave (i) encontradas
en el contexto elemental (j) y que son típicas del racimo (k);
nj = total de palabras clave (palabras distintas), típicas del
cluster (k), encontradas en el contexto elemental (j);
N = total de las palabras clave (palabras distintas) típicas del
cluster (k).
c - " Ec_Document_Classification.xls " (proporcionado solamente cuando el cluster se compone por lo menos de 2 documentos primarios y éstos no son textos breves como las respuestas a preguntas abiertas) enumera las pertenencias mezcladas de cada documento (véase abajo).

En este
caso los valores derivan de la fórmula antedicha (véase "b")
sumando los scores de los contextos elementales que pertenecen a cada documento
y aplicando un cálculo de porcentaje.
10 - Archivar la partición seleccionada para explorarla con otras herramientas T-LAB
A la salida de la función de Análisis temático de los Contextos elementales, algunos mensajes recuerdan que es posible explorar la partición seleccionada con otras herramientas T-LAB.
![]() |
Seleccionando la opción Guardar, la variable < CONT_CLUST > (cluster de contextos elementales) queda disponible sólo en algunos tipos de análisis (por ej. Secuencias de Temas, Asociaciones de Palabras, Comparación entre Parejas, Análisis de Co-Palabras) y hasta que el usuario modifica su lista de palabras clave.