T-LAB 10.2 - AIUDA EN RED - T-LAB Instrumentos para el análisis de textos

Esta herramienta de T-LAB tiene en cuenta las posiciones de las diferentes unidades lexicales dentro de las frases, permitiendonos así analizar y representar cualquier texto como si fuera una red de relaciones.

Las opciones a dispición del usuario permiten implementar analisis de Co-Word, analisis tematicos y desambiguaciones.

De hecho, una vez construidas las dos matrices que incluyen todas las parejas de predecesores y sucesores, T-LAB calcula las probabilidades de transición (cadenas de markov) y proporciona diferentes output relacionados con las palabras objeto de estudio.

Además, es posible realizar un analisis de clústeres. Como consecuencia, se podrán explorar las relaciones semanticas que existen entre palabras tanto dentro de la red entera como dentro de de los "clústeres temáticos" (N.B.: en este caso, el algoritmo usado para la clusterización coincide con el 'Louvain method' desarrollado por Blondel V.D., Guillame J.-L , Lambiotte R., Lefebre E., 2008).

Por tanto, una vez implementado este tipo de analisis, el usuario podrá explorar las relaciones que existen entre nodos de la red (esto es, las palabras clave) a diferentes niveles: a) dentro de las relaciones del tipo uno-a-uno; b) dentro de un "ego network"; c) dentro de las comunidades a las que pertenecen; d) dentro de la red formada por el texto analizado.

RELACIONES DEL TIPO UNO-AD-UNO	EGO-NETWORK

COMUNIDADES	RED ENTERA

Las informaciones necesarias para utilizar las diferente opciones de analisis están organizadas en tres secciones :

A - Explorar las conexiones del tipo uno-a-uno y las "ego networks;
B - Explorar las "comunidades" (clústeres temáticos) y la red entera;
C - Algunos detalles técnicos.

N.B.: Por razones de carácter editorial, esta página incluye ejemplos de analisis basados en un corpus escrito en lengua inglesa.

A - EXPLORAR LAS CONEXIONES DEL TIPO UNO-A-UNO Y LAS "EGO NETWORKS"

Una vez acabado el análisis automático, se dispondrá de diferentes tablas y gráficos que permitirán explorar las relaciones y los datos asociados a las palabras clave seleccionadas (N.B.: Para obtenerlos basta con hacer clic sobre uno de los ítems incluidos en las tablas o en cualquiera de los puntos que componen los gráficos).

Usando el botón derecho del ratón, será posible personalizar cualquier tipo de gráfico y exportarlo a diferentes formatos.

En dos de los gráficos los elementos más cercanos a los seleccionados son aquellos que mayor probabilidad tienen de estar delante (predecesores) o detrás (sucesores) de los mismos.

PREDECESORES	SUCCESORES

En los demás casos, la cercanía entre palabras-clave viene representada graficamente mediante el grosor de las flechas que las conectan.

Es posible comprobar todos los datos utilizando las diferentes tipologías de tablas.

Más en detalle:

Las TABLAS INTERACTIVAS muestran los listados de predecesores y sucesores vinculados a las palabras clave seleccionadas.

La lista está en una orden descendente según los valores de probabilidad ("PROB"). Por ejemplo, en la tabla siguiente, la probabilidad de que "camp" siga "refugee" es igual a 0.067, que es 6.7%.

La opción TRÍADAS nos permite visualizar algunas tablas con secuencias de tres elementos en las cuales la palabra seleccionada está en la primera, en la segunda o en la tercera posición. Para cada tríada T-LAB muestra los correspondientes valores de ocurrencia.
(N.B.: Dentro de las tríadas las palabras vacías no son incluidas).

La tabla TODOS LOS ENLACES (véase abajo) es particularmente util para desambiguar los significados de las palabras, y contiene todas las parejas de predecesores y sucesores junto con las ocurrencias a ellas correspondientes.
Cliqueando en una de la líneas de esta tabla, será posible visualizar, en el lado derecho de la misma y en formato HTLM, todos los segmentos de texto (esto es, los contextos elementales) en los cuales aparecen conjuntamente dos elementos de una misma pareja (esto es, las co-ocurrencias).

La tabla RANGO DE APARICIÓN incluye la frecuencia y el orden medio de aparición (o evocación) de cada palabra dentro de un segmento de texto. Sólo es posible ver esta tabla cuando el corpus está compuesto por textos cortos, como por ejemplo respuestas a preguntas abiertas.

Cliqueando en la opción GRAPH MAKER el usuario podrá crear, en todo momento y a partir de los listados personalizados de palabras clave, diferentes tipos de graficos (véase abajo). Los usuarios avanzados que estén interesados en exportar archivos a formatos diferentes (p.e. .dl .gml .vna .graphml) junto con los datos relativos a todos los enlaces, pueden hacer click en el botón 'SELECCIONAR TODOS LOS ITEMS'.

En todo momento, cliqueando con el botón derecho del ratón sobre las tablas que incluyen las palabras clave, es posible verificar los contextos de ocurrencia de los diferentes ítems (véase abajo).

B - EXPLORAR LAS COMUNIDADES (CLÚSTERES TEMÁTICOS) Y LA RED ENTERA

Una vez realizado un análisis de clústeres, se vuelven disponibles nuevos gráficos y tablas.
Todos ellos están indicados por pequeños rectángulos azules (véase abajo).

La primera tabla resume las mejores características (palabras clave) de la PARTICIÓN FINAL obtenida a partir del algoritmo de clusterización.
En dicha tabla se encuentran ordenadas en base a su valor TF-IDF (véase abajo) las características de cada clúster.
N.B.: Cuando un clúster de la partición final incluye solo dos palabras, usualmente eso significa que un caso de multiword no se ha resuelto durante la fase de preprocesamiento de datos.

Haciendo clic en cualquier palabra de la tabla anterior (así como de la tabla PARTICIONES DISPONIBLES), un TreeMap nos permite verificar las comunidades a las que pertenece (ver abajo).

El MAPA MDS y el gráfico PORCENTAJES (véase abajo) permiten comprobar el 'peso' de cada clúster, así como las relaciones entre diferentes clústeres dentro de la partición final encontrada (véase abajo).

En función del número de palabras clave, será posible explorar las relaciones entre ellas, utilizando dos gráficos en formato HTLM. Todo ello, tanto dentro de la entera red como dentro de los clústeres a los que pertenecen las palabras clave (véase abajo).

DENDROGRAMA RADIAL

NETWORK GRAPH (FORCE-DIRECTED GRAPH)

Tres nuevas tablas proporcionarán ulterior información obtenida a partir de los análisis de clústeres.

En concreto:

La tabla TODAS LAS PARTICIONES permitirá comprobar como las palabras claves estén agrupadas a partir de cada una de las particiones del analisis de clústeres (véase abajo. Los números incluidos en las columnas de las particiones hacen referencia a los diferentes clústeres).

N.B.: Por defecto, esta tabla viene ordenada en base a la primera partición, que presenta el numero más alto de clústeres. Cada movimiento de un clúster pequeño hacia otro viene puesto de releve marcando en color verde la primera palabra que lo compone.

La tabla PARTICIONES INTERMEDIAS permitirá explorar de qué manera hayan sido agrupadas las palabras claves dentro de cada una de las particiones seleccionadas. Paso a paso, éstas vendrán ordenadas de forma descendente en base a los valores de sus co-ocurrencias (véase abajo).

La tabla CONTEXTOS TÍPICOS permite explorar los segmentos de texto que mayor puntuación de asociación presentan en relación con los clústeres de la partición final. En esta tabla se utiliza el índice de coseno para medir la semejanza entre el vector de las características de cada clúster y el vector que contiene los segmentos de texto.

N.B. Viene marcado en color amarillo el segmento de texto más significativo de cada clúster.

Así como ocurre para otros tipos de análisis temático, T-LAB permite exportar el diccionario de la partición final. De este modo, su uso estará disponible para ulteriores análisis.

C - ALGUNOS DETALLES TÉCNICOS

Esta herramienta de T-LAB puede ser implementada a partir de las siguientes tipologías de secuencias:

1- Secuencias de palabras-clave, cuyos elementos son unidades lexicales (es decir, palabras o lemas) presentes en el corpus o un subconjunto del corpus mismo. En este caso, el número máximo de 'nudos' (es decir, los 'tipos' de unidades lexicales) es 5.000;
N.B.: Quando se aplica la lematización automática, 5.000 unidades léxicales corresponden a cerca de 12.000 palabras.

2- Secuencias de Temas, cuyos elementos son las unidades de contexto (es decir, contextos elementales) clasificadas por una de las herramienta de T-LAB para el análisis temático.
N.B.: En este caso, ya que la secuencia de los contextos elementales (frases o párrafos) caracteriza la 'cadena' entera del corpus (predecesores y sucesores), T-LAB implementa una forma concreta de Análisis del Discurso, cuyos nudos (es decir los 'temas') varían de un mínimo de 5 a un máximo de 50.

3 - Secuencias registradas en un archivo Sequence.dat predispuesto por el usuario (véanse las explicaciones pertinentes al final de esta sección). En este caso, el número máximo de records es 50.000 y el numero de 'tipos' (es decir, los nudos) no debe superar los 5.000.

Las informaciones que siguen vienen proporcionadas para que el usuario comprenda mejor los datos incluidos en la tabla RESUMEN.

Según la teoría de gráficos, los predecesores y los sucesores de cada nodo (en este caso, unidad lexical) pueden ser representados por medio de flechas (arcos) entrantes (in-degree = los tipos de predecesores) y salientes (out-degree = los tipos de sucesores).

Por ejemplo, en la tabla siguiente "people" tiene 412 tipos de sucesores y 449 tipos de predecesores.
Y el centrality degree es igual a 0.243.

Según el cociente (sucesores/predecesores), es posible verificar la variedad semántica engendrada por cada nodo:

- si el cociente es mayor de 1, el nodo es definido "fuente";
- si el cociente es igual a 1, el nodo es definido "relais"
- si el cociente es más bajo de 1, el nodo es definido "pozo".

En la misma tabla, para cada unidad lexical, la columna "cover" (cobertura) indica el porcentaje de sus ocurrencias precedidas o seguidas por las unidades lexicales incluidas en la lista del usuario.

Cuando las unidades analizadas "cubren" la totalidad de los presentes dentro del corpus, el valor de "cover" es igual a 1; si no, es un valor inferior. Por otra parte: cuando el valor de "cover" es igual a 1, también las adiciones de los valores de probabilidad (de predecesores y de sucesores) son iguales a 1; si no, son valores inferiores. En ambos casos, el porcentaje "residual" es determinado por el hecho de que hay predecesores y sucesores no incluidos en el análisis.

Por ejemplo, la secuencia representada en la imagen siguiente es constituida por 39 acontecimientos: de éstos, solamente 16 (las hipotéticas unidades en análisis) "se cubren" (las cajas grises). Es porque algunos de ellos (véase aquéllos correspondientes a las ocurrencias de la unidad "A") tienen predecesores y sucesores no incluidos en el análisis (cajas blancas).

Diferentemente, cuando el usuario analiza Secuencias de Temas o un archivo externo todos los acontecimientos "se cubren".

N.B.: Para analizar un fichero externo es necesario preparar el fichero 'Sequence.dat' correspondiente. Sucesivamente, y una vez abierto un proyecto ya existente, el usuario debe escoger la opción "Secuencias registradas en un archivo Sequence.dat".

El método del cálculo, los gráficos y las tablas son análogos a ésos ya descritos (véase arriba).

El archivo de Sequence.dat, que puede contener cada clase de etiquetas (e.g. los nombres en una conversación, las categorías obtenidas por análisis del contenido, las clases de acontecimientos,etc.), se debe componer por "N" líneas (mínimo 50 máximo 10.000), cada una con una etiqueta de máximo 50 caracteres, sin signos de puntuación o espacios en blanco.

Los tipos de etiquetas deben ser máximo 5.000.

He aquí algunos ejemplos de Sequence.dat en el formato correcto:

Hamlet
King
Hamlet
Queen
Hamlet
Queen
Hamlet
King
Queen
Hamlet
King
Hamlet
Horatio
Hamlet
Horatio
... ... ...

activist
food
genetic
conservative
activist
genetic
conservative
activist
commerce
conservative
activist
conservative
biology
society
activist
... ... ...

event_01
event_03
event_02
event_03
event_03
event_01
event_05
event_02
event_05
event_01
event_02
event_04
event_03
event_01
event_01
... ... ...

Tanto en el caso de secuencias de unidades lexicales (corpus analizado) como en el de secuencias incluidas en un archivo externo (Sequence.dat), T-LAB produce algunas tablas en la carpeta MY-OUTPUT.