www.tlab.it

Análisis Temático de Contextos Elementales



Esta herramienta de T-LAB nos permite obtener una representación de los contenidos del corpus mediante pocos y significativos clusters temáticos (de 3 a 50), de modo que cada uno de ellos:

a) resulta constituido de un conjunto de contextos elementales (ej. frases, párrafos, fragmentos de texto, respuestas a preguntas abiertas) caracterizados por los mismos patrones (patterns) de palabras clave;

b) puede ser descrito por las unidades lexicales (palabras, lemas o categorías) y por las variables (si presentes) que más caracterizan los contextos elementales de los cuales se compone.

Por muchos motivos, los resultados del análisis se pueden interpretar como mapas de isotopías (iso = igual; topos = lugar), es decir como mapas de temas "genéricos" o "específicos" (Rastier, 2002: 204) caracterizados por la co-ocurrencia de componentes semánticos.



Una caja de diálogo (véase arriba) permite que el usuario fije algunos parámetros del análisis

En particular:

- el parámetro (A) permite que el usuario fije el número máximo de clusters que se incluirán en los outputs de T-LAB;
- el parámetro (B) permite que el usuario excluya del análisis cualquier unidad del contexto que no contenga un número mínimo de palabras clave incluidas en la lista que él está utilizando.

NOTA: Ambos los parámetros antedichos producen cambios significativos en los resultados del análisis solamente cuando el número de las unidades del contexto es muy grande y/o cuando los textos analizados son cortos.

El procedimiento del análisis consiste en los pasos siguientes:

a - construcción de una tabla unidades de contexto x unidades lexicales (hasta 150.000 filas x 1500 columnas), con valores de tipo presencia-ausencia;
b - cálculo de pesos TF-IDF y normalización de los vectores (norma euclídea);
c - clusterización de las unidades de contexto (medida de semejanza: coeficiente del coseno; método de clusterización: bisecting K-means);
d - salvaguardia de las particiones obtenidas y, para cada una de ellas:
e - construcción de una tabla de contingencia unidades lexicales x clusters (n x k);
f - test del chi cuadrado aplicado a todos los cruces unidades lexicales x clusters.
g - análisis de las correspondencias de la tabla de contingencia.

Así, este procedimiento realiza un análisis de las co-ocurrencias (pasos a-b-c) y, a continuación, un análisis comparativo (e-f-g). En particular, el análisis comparativo utiliza como columnas de las tablas de contingencia las modalidades (niveles o categorías) de la "nueva variable" derivada del análisis de las co-ocurrencias (modalidades de la nueva variable = clusters temáticos).

NOTA: Cuando el usuario decide repetir/aplicar los resultados de un análisis anterior (tanto Análisis Temático de Contextos Elementales como Modelización de los Temas Emergentes), T-LAB realiza solamente un análisis comparativo de los clústers obtenidos (puntos e-f-g)

término del análisis, el usuario puede efectuar rápidamente las siguientes operaciones:

1 - explorar las características de los clusters;
2 - explorar las relaciones entre clusters;
3 - explorar las relaciones entre clusters y variables;
4 - explorar las diversas particiones de los clusters;
5 - refinar los resultados de la partición elegida y, si es necesario, repetir unos pasos antedichos (1,2,3);
6 - asignar etiquetas a los clusters;
7 - verificar qué contextos elementales pertenecen a qué clusters;
8 - verificar el peso de cada uno de los contextos elementales dentro del cluster al que pertenece;
9- obtener una clasificación temática de los documento (proporcionada solamente cuando el corpus se compone por lo menos de 2 documentos primarios y éstos no son textos breves como las respuestas a preguntas abiertas);
10- archivar la partición seleccionada para explorarla con otras herramientas T-LAB.

En detalle:

1 - Explorar las características de los clusters


Haciendo clic en el botón características, para cada cluster se muestran los valores siguientes: Chi-cuadrado y sumatoria de contextos elementales en los que cada característica (lemma o variable) se encuentra presente, bien sea en el interior del cluster seleccionado ("IN CLUST") o en el interior del conjunto analizado ("IN TOT"). Además, la columna "CAT" indica si la característica ha sido seleccionada por el usuario ("A"), con la función Configuración del Análisis, o si ha sido sugerida por T-LAB como descripción "suplementaria" ("S").

En el caso del chi cuadrado la estructura de la tabla analizada es la siguiente:


Donde:
nij se refiere a las ocurrencias de la palabra (a) dentro del cluster seleccionado (A)
Nj se refiere a todas las ocurrencias de la palabra (a) dentro del corpus (o del subconjunto) analizado
Ni se refiere a todas las ocurrencias de palabras dentro del cluster seleccionado (A)
N se refiere a todas las ocurrencias de la tabla de la contingencia palabras x clusters.

Un informe HTML (ver a continuación) permite verificar en detalle las características de los clusters. En éste, además de la lista de palabras típicas, se muestran los contextos elementales que más caracterizan el cluster seleccionado, ordenados de manera descendente según el respectivo peso (score).

Gráficos a tarta y histogramas (véase abajo) permiten verificar el porcentaje de unidades de contexto que pertenece a cada cluster.

 

 

2 - Explorar las relaciones entre clusters

Algunos gráficos, obtenidos por medio de Análisis de Correspondencias, permiten explorar las relaciones entre clusters en espacios bidimensionales.
De forma más específica:
- para explorar las distintas combinaciones de los ejes factoriales es suficiente seleccionarlos en los boxes apropiados ("Eje X", "Eje Y");
- para cada una de las combinaciones (X-Y), es posible visualizar los distintos tipos de elementos (clusters, lemas y variables).

Todos los gráficos pueden ser personalizados usando el apropiado cuadro de diálogo (hacer clic en el botón derecho del ratón). Además cuando los clústers temáticos son más de tres, sus relaciones pueden ser exploradas en gráficos 3D (ver abajo).

Las características de cada polo factorial pueden ser exploradas haciendo clic en los botones marcados en rojo.

Un clic en el botón correspondiente permite que usted visione y guarde el archivo que contiene los resultados completos del análisis: valores propios, coordenadas, aportes absolutos y relativos, valores tes: valores propios, coordenadas, aportes absolutos y relativos, valores test.

Una opción específica (véase más abajo) nos permite visualizar/exportar la tabla de contingencia y crear gráficos que muestran la distribución de cada palabra dentro de los clusters.
Además, haciendo clic en específicas células de la tabla, es posible crear un archivo HTML que incluye todos los contextos elementales en que la palabra en la fila está presente en el cluster correspondiente.

 

3 - Explorar las relaciones entre clusters y variables

Algunos histogramasnos permiten verificar las relaciones entre los clusters y las variables.

Además es posible explorar ulteriores relaciones entre clusters y variables con las opciones disponibles en la sección Análisis factorial" (ver más arriba).

4 - Explorar las diversas particiones de los clusters

Posto que el algoritmo usado produce una clusterización jerárquica, el usuario puede explorar fácilmente diferentes soluciones del análisis: particiones de 3 a 50 clusters.

Para cada una de las particiones obtenidas existe una tabla (ver a continuación) con los siguientes valores:
- "Index", que corresponde a la relación entre la varianza intercluster y la varianza total;
- "Gap", que indica la diferencia entre el valor del índice y el de la partición inmediatamente anterior;
- Número del cluster "hijo" (child) obtenido por medio de la bi-sección del "progenitor" (parent) correspondiente.

La opción particiones permite explorar las características de las soluciones disponibles (clic en los ítems de la tabla).


Además, la opción dendrograma permite verificar el árbol de las distintas bi-secciones.

5 - Refinar los resultados de la partición elegida

Después de haber explorado diversas soluciones, el usuario puede refinar los resultados de la partición elegida y, si es necesario, repetir unos pasos antedichos (1,2,3).

Esta opción de T-LAB permite que el usuario suprima del análisis todas las unidades del contexto cuya pertenencia a un cluster no satisface los criterios siguientes:
a) por cada unidad de contexto, el cluster asignado mediante el método del bisecting K-Means (unsupervised clustering) y aquel asignado mediante el clasificador Naive Bayes (supervised clustering) deben ser los mismos;
b) el valor máximo de la probabilidad a posteriori que corresponde a la pertenencia de la i-unidad de contexto al k-cluster debe ser, en términos porcentuales, por lo menos 50% más grande que sus valores restantes (es decir las probabilidades a posteriori en otros clusters).

Todos los resultados de este cómputo están en una tabla exportada por T-LAB (véase abajo), la cuál contiene los valores de probabilidad expresados en términos porcentuales.

6 - Asignar etiquetas a los clusters

Una función de T-LAB permite atribuir etiquetas a los clusters.
(Nota: Al primer uso, algunas de las etiquetas son asignadas automáticamente por el programa).

Las etiquetas atribuidas a los distintos clusters pueden ser visualizadas en los distintos gráficos disponibles (ver a continuación).

7 - Verificar qué contextos elementales pertenecen a qué clusters;
8- Verificar el peso de cada uno de los contextos elementales dentro del cluster al que pertenece;
9- Obtener una clasificación temática de los documentos.

De hecho el botón Miembros permite exportar tres tipos de tablas en formato MS Excel:

a - " Cluster_Partitions.xls " (véase abajo) con todas las correspondencias de unidad de contexto x cluster en el interior de las distintas particiones;

 

b - Themes-Contexts.xls (véase abajo) con las correspondencias de unidad de contexto x cluster en el interior de la partición seleccionada.

 

En particular, el valor de importancia (score) asignado a cada contexto elemental (j) que pertenece al racimo (k) viene de la fórmula siguiente:

Donde:

Scorej = valor de la importancia asignado al contexto elemental (j);
SXij = suma de los valores del Chi-cuadrado asignados a las palabras clave (i) encontradas en el contexto elemental (j) y que son típicas del racimo (k);
nj = total de palabras clave (palabras distintas), típicas del cluster (k), encontradas en el contexto elemental (j);
N = total de las palabras clave (palabras distintas) típicas del cluster (k).

c - " Ec_Document_Classification.xls " (proporcionado solamente cuando el cluster se compone por lo menos de 2 documentos primarios y éstos no son textos breves como las respuestas a preguntas abiertas) enumera las pertenencias mezcladas de cada documento (véase abajo).

En este caso los valores derivan de la fórmula antedicha (véase "b") sumando los scores de los contextos elementales que pertenecen a cada documento y aplicando un cálculo de porcentaje.

10 - Archivar la partición seleccionada para explorarla con otras herramientas T-LAB

A la salida de la función de Análisis temático de los Contextos elementales, algunos mensajes recuerdan que es posible explorar la partición seleccionada con otras herramientas T-LAB.

Seleccionando la opción Guardar, la variable < CONT_CLUST > (cluster de contextos elementales) queda disponible sólo en algunos tipos de análisis (por ej. Secuencias de Temas, Asociaciones de Palabras, Comparación entre Parejas, Análisis de Co-Palabras) y hasta que el usuario modifica su lista de palabras clave.