Modelización de Temas Emergentes
Este
instrumento T-LAB
permite individualizar, analizar y modelizar los principales
temas que emergen de los textos y, consecuentemente, utilizarlos en ulteriores
análisis, tanto de tipo cualitativo como de tipo cuantitativo.
Los temas emergentes - que están descritos a través de sus vocabulario
característico, es decir a través de un conjunto de palabras
clave que se presentan en coocurrencia en las unidades de contextos examinados
- pueden ser utilizados para clasificar estas unidades (tanto documentos como
contextos elementales) y obtener nuevas variables utilizables en nuevas análisis
T-LAB.
En el momento de inicio del análisis, el único parámetro
que el usuario puede determinar es el numero de temas que se pueden obtener
(ver el cuadro siguiente). En este caso se tengan en cuenta dos factores:
- cuanto mayor es el numero de los temas tanto más consistentes son las
relaciones de coocurrencia presentes
- algunos temas (por ejemplo los que son redundantes o de difícil interpretación)
pueden ser eliminados en un segundo momento a través de una funcionalidad
específica del instrumento en examen.

El proceso
automático de análisis sigue los siguientes pasos:
a - construcción de una matriz de las coocurrencias (según los
casos, documentos para palabras o contextos elementales para palabras);
b - análisis de datos a través un modelo probabilístico
que usa la Latent Dirichlet Allocation y el Gibbs Sampling (para más
información se pueden consultar las siguientes Web de Wikipedia: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation;
http://en.wikipedia.org/wiki/Gibbs_sampling;
c - descripción de cada tema a través de los valores de probabilidades
asociados a sus palabras características, tanto "específicas"
como "compartidas" por uno o más temas.
Al final del proceso de análisis, el usuario puede fácilmente efectuar las siguientes operaciones:
1 - explorar, renombrar y eliminar las características de cada tema;
2 - renombrar o eliminar temas específicos;
3 - probar el modelo a través de un Naïve Bayes Classifier que asigna los temas a las unidades del contexto, tanto documentos como contextos elementales;
4 - aplicar el modelo (lo puesto a prueba en el precedente punto) y explorar las relaciones entre los temas utilizandos otros instrumentos T-LAB.
En el detalle:
1 - Explotar, renombrar y eliminar las características
de cada tema

NOTA: En este gráfico "hight probability" indica una probabilidad >=.75.

Pinchando sobre la etiqueta del tema (ver "A" en el cuadro anterior) se pueden visualizar tablas y gráficos (ver "B" en el cuadro anterior); además, pinchando sobre las palabras de las tablas (ver "C" en el cuadro anterior), es posible verificar sus distribución dentro de los varios temas y, en caso, eliminarlas.
Las claves de lectura de las tablas son las siguientes:
IN THEME = ocurrencia (tokens) de cada palabra dentro del tema seleccionado;
TOT = ocurrencia (tokens) de cada palabra dentro del corpus o del subconjunto
analizado;
IN (%) = peso porcentaje de cada palabra dentro del tema seleccionado;
(p) = valor de probabilidad asociado a cada relación palabra x tema;
TYPE = marcado como "specific" cuando
la palabra (con p = 1) pertenece solo al tema seleccionado y como "shared"
en todos los otros casos (es decir cuando la palabra es presente, en maneras
diferentes, en mas de un tema).
Seleccionando
la opción "resultados completos"
(ver "B" en el cuadro anterior) T-LAB produce un archivo HTML con
todos los temas y sus vocabulario característico; además permite
exportar algunos archivos XLS.

Cuando la opción "shared words" está seleccionada (véase abajo), es posible explorar la tabla correspondiente y crear un gráfico para cada elemento seleccionado.

2 - Renombrar o eliminar temas específicos
Para renombrar o eliminar temas específicos es suficiente seleccionar
llos ítems correspondientes (ver "A" en el cuadro siguiente)
y pinchar sobre el botón "renombrar/eliminar"
(ver "B" en el cuadro siguiente).
Cuando aparece el cuadro con las varias opciones (ver el cuadro siguiente),
el usuario puede, según su objetivos, cambiar la etiqueta del tema (tanto
eligiendo entre las palabras disponibles como tecleando una nueva palabra; ver
"C" en el cuadro siguiente) o eliminar el tema seleccionado pinchando
sobre el botón correspondiente (ver "D" en el cuadro siguiente).

3 - Probar el modelo
Al final del análisis de los datos (ver los puntos "a" y "b")
cada unidad de contexto (por ejemplo un documento o un contexto elemental) resulta
constituido como una mixtura de temas. De otra manera, el Naïve
Bayes Classifier, utilizado para probar/aplicar el modelo, usa el calculo
de las probabilidades para asociar cada unidad de contexto al tema que mas lo
caracteriza. Como resultado, en esta fase, cada tema se pone de hecho como un
clúster de unidad de contexto.
Por esa razón, cuando se selecciona la opción "Probar
el modelo", T-LAB
produce un archivo HTML y dos archivos XLS (ver abajo) que permiten a el usuario
de verificar la pertenencia de cada unidad de contexto a un tema específico.




5 - Aplicar el modelo
Después haber aplicado y guardado el modelo (ver "A" en el
cuadro siguiente) los resultados del análisis pueden ser inmediatamente
visualizados a través de un mapa MDS.

Además, por tanto que los temas son archivados por T-LAB como modalidades de dos nuevas variables que se refieren a clúster de contextos elementales (CONT_CLUST) y/o a clúster de documentos (DOC_CLUST), las relaciones entre los mismos temas y/o sus características pueden ser más explorados con diferentes instrumentos de análisis (ver el cuadro siguiente).

Por ejemplo, se puede efectuar un Análisis de las Correspondencia de los varios temas (ver el cuadro siguiente)
se puede realizar un mapa de red utilizando el instrumento Secuencias de Temas (ver el cuadro siguiente)

se pueden obtener gráficos radiales a través del instrumento Asociaciones de Palabras (ver el cuadro siguiente) etcétera.
