www.tlab.it

Modelización de Temas Emergentes



Este instrumento T-LAB permite individualizar, analizar y modelizar los principales temas que emergen de los textos y, consecuentemente, utilizarlos en ulteriores análisis, tanto de tipo cualitativo como de tipo cuantitativo.

Los temas emergentes - que están descritos a través de sus vocabulario característico, es decir a través de un conjunto de palabras clave que se presentan en coocurrencia en las unidades de contextos examinados - pueden ser utilizados para clasificar estas unidades (tanto documentos como contextos elementales) y obtener nuevas variables utilizables en nuevas análisis T-LAB.


En el momento de inicio del análisis, el único parámetro que el usuario puede determinar es el numero de temas que se pueden obtener (ver el cuadro siguiente). En este caso se tengan en cuenta dos factores:
- cuanto mayor es el numero de los temas tanto más consistentes son las relaciones de coocurrencia presentes
- algunos temas (por ejemplo los que son redundantes o de difícil interpretación) pueden ser eliminados en un segundo momento a través de una funcionalidad específica del instrumento en examen.

El proceso automático de análisis sigue los siguientes pasos:

a - construcción de una matriz de las coocurrencias (según los casos, documentos para palabras o contextos elementales para palabras);
b - análisis de datos a través un modelo probabilístico que usa la Latent Dirichlet Allocation y el Gibbs Sampling (para más información se pueden consultar las siguientes Web de Wikipedia: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation; http://en.wikipedia.org/wiki/Gibbs_sampling;
c - descripción de cada tema a través de los valores de probabilidades asociados a sus palabras características, tanto "específicas" como "compartidas" por uno o más temas.

Al final del proceso de análisis, el usuario puede fácilmente efectuar las siguientes operaciones:

1 - explorar, renombrar y eliminar las características de cada tema;

2 - renombrar o eliminar temas específicos;

3 - probar el modelo a través de un Naïve Bayes Classifier que asigna los temas a las unidades del contexto, tanto documentos como contextos elementales;

4 - aplicar el modelo (lo puesto a prueba en el precedente punto) y explorar las relaciones entre los temas utilizandos otros instrumentos T-LAB.


En el detalle:

1 - Explotar, renombrar y eliminar las características de cada tema

 

NOTA: En este gráfico "hight probability" indica una probabilidad >=.75.

Pinchando sobre la etiqueta del tema (ver "A" en el cuadro anterior) se pueden visualizar tablas y gráficos (ver "B" en el cuadro anterior); además, pinchando sobre las palabras de las tablas (ver "C" en el cuadro anterior), es posible verificar sus distribución dentro de los varios temas y, en caso, eliminarlas.


Las claves de lectura de las tablas son las siguientes:
IN THEME = ocurrencia (tokens) de cada palabra dentro del tema seleccionado;
TOT = ocurrencia (tokens) de cada palabra dentro del corpus o del subconjunto analizado;
IN (%) = peso porcentaje de cada palabra dentro del tema seleccionado;
(p) = valor de probabilidad asociado a cada relación palabra x tema;
TYPE = marcado como "specific" cuando la palabra (con p = 1) pertenece solo al tema seleccionado y como "shared" en todos los otros casos (es decir cuando la palabra es presente, en maneras diferentes, en mas de un tema).

Seleccionando la opción "resultados completos" (ver "B" en el cuadro anterior) T-LAB produce un archivo HTML con todos los temas y sus vocabulario característico; además permite exportar algunos archivos XLS.

Cuando la opción "shared words" está seleccionada (véase abajo), es posible explorar la tabla correspondiente y crear un gráfico para cada elemento seleccionado.


2 - Renombrar o eliminar temas específicos

Para renombrar o eliminar temas específicos es suficiente seleccionar llos ítems correspondientes (ver "A" en el cuadro siguiente) y pinchar sobre el botón "renombrar/eliminar" (ver "B" en el cuadro siguiente).

Cuando aparece el cuadro con las varias opciones (ver el cuadro siguiente), el usuario puede, según su objetivos, cambiar la etiqueta del tema (tanto eligiendo entre las palabras disponibles como tecleando una nueva palabra; ver "C" en el cuadro siguiente) o eliminar el tema seleccionado pinchando sobre el botón correspondiente (ver "D" en el cuadro siguiente).



3 - Probar el modelo

Al final del análisis de los datos (ver los puntos "a" y "b") cada unidad de contexto (por ejemplo un documento o un contexto elemental) resulta constituido como una mixtura de temas. De otra manera, el Naïve Bayes Classifier, utilizado para probar/aplicar el modelo, usa el calculo de las probabilidades para asociar cada unidad de contexto al tema que mas lo caracteriza. Como resultado, en esta fase, cada tema se pone de hecho como un clúster de unidad de contexto.

Por esa razón, cuando se selecciona la opción "Probar el modelo", T-LAB produce un archivo HTML y dos archivos XLS (ver abajo) que permiten a el usuario de verificar la pertenencia de cada unidad de contexto a un tema específico.


5 - Aplicar el modelo


Después haber aplicado y guardado el modelo (ver "A" en el cuadro siguiente) los resultados del análisis pueden ser inmediatamente visualizados a través de un mapa MDS.


Además, por tanto que los temas son archivados por T-LAB como modalidades de dos nuevas variables que se refieren a clúster de contextos elementales (CONT_CLUST) y/o a clúster de documentos (DOC_CLUST), las relaciones entre los mismos temas y/o sus características pueden ser más explorados con diferentes instrumentos de análisis (ver el cuadro siguiente).

Por ejemplo, se puede efectuar un Análisis de las Correspondencia de los varios temas (ver el cuadro siguiente)


se puede realizar un mapa de red utilizando el instrumento Secuencias de Temas (ver el cuadro siguiente)


se pueden obtener gráficos radiales a través del instrumento Asociaciones de Palabras (ver el cuadro siguiente) etcétera.