www.tlab.it

Análisis de Secuencias


Esta herramienta de T-LAB permite un análisis markoviana de dos tipos de secuencias:

A) aquéllas referentes a las unidades lexicales (palabras, lemas o categorías) en la red definida por el corpus analizado o por sus subconjuntos (ver el botón CORPUS en la imagen siguiente);

B) aquéllas registradas en un archivo externo hecho por el usuario (véase el botón ARCHIVO y la explicación en el extremo de esta sección).

En el caso (A), las secuencias son relaciones sintagmáticas entre las unidades lexicales, cada una de ellas - para cada ocurrencia - tiene un predecesor y un sucesor.

Comenzando de una matriz en la cual se registren todos los predecesores y a todos los sucesores de cada unidad lexical, T-LAB computa las probabilidades de transición (cadenas de Markov) entre las unidades lexicales analizadas (máximo 1500).

Al término del proceso, T-LAB permite la exploración de la red del corpus con gráficos y tablas (NOTA: todos los outputs son clicables).

En los gráficos, las unidades lexicales que están más cerca a la seleccionada son las que tienen mayor probabilidad de precederla (los predecesores) o de seguirla (los sucesores).

Dos tablas muestran la lista de los predecesores y de los sucesores de cada unidad lexical seleccionada.

La lista está en una orden descendente según los valores de probabilidad ("PROB"). Por ejemplo, en la tabla siguiente, la probabilidad de que "internacional" siga "crisis" es igual a 0.091, que es 9.1%.

La opción "tríadas" nos permite visualizar algunas tablas con secuencias de tres elementos en las cuales, según la opción del usuario, la palabra seleccionada está en la primera, en la segunda o en la tercera posición. Para cada tríada T-LAB muestra los correspondientes valores de ocurrencia.

NOTA Dentro de las tríadas las palabras vacías no son incluidas.


Según la teoría de gráficos, los predecesores y los sucesores de cada nodo (en este caso, unidad lexical) pueden ser representados por medio de flechas (arcos) entrantes (in-degree = los tipos de predecesores) y salientes (out-degree = los tipos de sucesores).

Por ejemplo, en la tabla siguiente "pais" tiene 42 tipos de sucesores y 39 tipos de predecesores. Según el cociente (sucesores/predecesores), es posible verificar la variedad semántica engendrada por cada nodo:

- si el cociente es mayor de 1, el nodo es definido "fuente";
- si el cociente es igual a 1, el nodo es definido "relais";
- si el cociente es más bajo de 1, el nodo es definido "pozo".

En la misma tabla, para cada unidad lexical, la columna "cover" (cobertura) indica el porcentaje de sus ocurrencias precedidas o seguidas por las unidades lexicales incluidas en la lista del usuario.

 

Cuando las unidades analizadas "cubren" la totalidad de los presentes dentro del corpus (véase el uso de categorías para el análisis del contenido y/o uso de archivos externos), el valor de "cover" es igual a 1; si no, es un valor inferior. Por otra parte: cuando el valor de "cover" es igual a 1, también las adiciones de los valores de probabilidad (de predecesores y de sucesores) son iguales a 1; si no, son valores inferiores. En ambos casos, el porcentaje "residual" es determinado por el hecho de que hay predecesores y sucesores no incluidos en el análisis.

Por ejemplo, la secuencia representada en la imagen siguiente es constituida por 39 acontecimientos: de éstos, solamente 16 (las hipotéticas unidades en análisis) "se cubren" (las cajas grises). Es porque algunos de ellos (véase aquéllos correspondientes a las ocurrencias de la unidad "A") tienen predecesores y sucesores no incluidos en el análisis (cajas blancas).

Diferentemente, cuando el usuario analiza un archivo externo todos los acontecimientos "se cubren".

NOTA: Para analizar un archivo externo, el usuario debe colocar un archivo de Sequence.dat en la carpeta del trabajo; entonces, después de abrir un proyecto existente, él debe seleccionar el Análisis de Secuencias (opción "usuario").

El método del cálculo, los gráficos y las tablas son análogos a ésos ya descritos (véase arriba).

El archivo de Sequence.dat, que puede contener cada clase de etiquetas (e.g. los nombres en una conversación, las categorías obtenidas por análisis del contenido, las clases de acontecimientos,etc.), se debe componer por "N" líneas (mínimo 50 máximo 10.000), cada una con una etiqueta de máximo 50 caracteres, sin signos de puntuación o espacios en blanco.

Los tipos de etiquetas deben ser máximo 250.

He aquí algunos ejemplos de Sequence.dat en el formato correcto:

Hamlet
King
Hamlet
Queen
Hamlet
Queen
Hamlet
King
Queen
Hamlet
King
Hamlet
Horatio
Hamlet
Horatio
... ... ...


activist
food
genetic
conservative
activist
genetic
conservative
activist
commerce
conservative
activist
conservative
biology
society
activist
... ... ...


event_01
event_03
event_02
event_03
event_03
event_01
event_05
event_02
event_05
event_01
event_02
event_04
event_03
event_01
event_01
... ... ...

Tanto en el caso de secuencias de unidades lexicales (corpus analizado) como en el de secuencias incluidas en un archivo externo (Sequence.dat), T-LAB produce tres tablas en la carpeta MY-OUTPUT:
- T_Successors.xls, con las probabilidades de transición de sucesores;
- T_Predecessors.xls, con las probabilidades de transición de predecesores;
- Frequency_Average_Order.xls, proporcionada solo cuando el corpus se compone de textos breves como las respuestas a preguntas abiertas, con la frecuencia y el rango medio de comparición (o evocación) de cada palabra;
- Adjacency_Matrix.XLS , proporcionada solo cuando la lista de las unidades lexicales incluye hasta 250 items), que se puede utilizar para generar otras medidas y otros gráficos típicos del análisis de red (Network Analysis).

Por otra parteT-LAB nos permite exportar archivos de GraphML que se pueden editar por el software yEd (véase abajo).