Análisis de Secuencias
Esta herramienta de T-LAB permite un análisis markoviana de dos tipos de secuencias:
A) aquéllas referentes a las unidades lexicales (palabras, lemas o categorías) en la red definida por el corpus analizado o por sus subconjuntos (ver el botón CORPUS en la imagen siguiente);
B) aquéllas registradas en un archivo externo hecho por el usuario (véase el botón ARCHIVO y la explicación en el extremo de esta sección).

En el caso (A), las secuencias son relaciones sintagmáticas entre las unidades lexicales, cada una de ellas - para cada ocurrencia - tiene un predecesor y un sucesor.
Comenzando de una matriz en la cual se registren todos los predecesores y a todos los sucesores de cada unidad lexical, T-LAB computa las probabilidades de transición (cadenas de Markov) entre las unidades lexicales analizadas (máximo 1500).
Al
término del proceso, T-LAB
permite la exploración de la red del corpus con gráficos y tablas
(NOTA: todos los outputs son clicables).
En los gráficos, las unidades lexicales que están más cerca
a la seleccionada son las que tienen mayor probabilidad de precederla (los predecesores)
o de seguirla (los sucesores).


Dos tablas muestran la lista de los predecesores y de los sucesores de cada unidad lexical seleccionada.
La
lista está en una orden descendente según los valores de probabilidad
("PROB"). Por ejemplo, en la tabla siguiente, la probabilidad de que
"internacional" siga "crisis" es igual a 0.091, que es 9.1%.

La opción "tríadas" nos permite visualizar algunas tablas con secuencias de tres elementos en las cuales, según la opción del usuario, la palabra seleccionada está en la primera, en la segunda o en la tercera posición. Para cada tríada T-LAB muestra los correspondientes valores de ocurrencia.
NOTA
Dentro de las tríadas las palabras vacías
no son incluidas.

Según
la teoría de gráficos, los predecesores y los sucesores de cada
nodo (en este caso, unidad lexical) pueden ser representados por medio de flechas
(arcos) entrantes (in-degree = los tipos de predecesores) y salientes (out-degree
= los tipos de sucesores).

Por ejemplo, en la tabla siguiente "pais" tiene 42 tipos de sucesores y 39 tipos de predecesores. Según el cociente (sucesores/predecesores), es posible verificar la variedad semántica engendrada por cada nodo:
-
si el cociente es mayor de 1, el nodo es definido "fuente";
- si el cociente es igual a 1, el nodo es definido "relais";
- si el cociente es más bajo de 1, el nodo es definido "pozo".
En
la misma tabla, para cada unidad lexical, la columna "cover" (cobertura)
indica el porcentaje de sus ocurrencias precedidas o seguidas por las unidades
lexicales incluidas en la lista del usuario.

Cuando las unidades analizadas "cubren" la totalidad de los presentes dentro del corpus (véase el uso de categorías para el análisis del contenido y/o uso de archivos externos), el valor de "cover" es igual a 1; si no, es un valor inferior. Por otra parte: cuando el valor de "cover" es igual a 1, también las adiciones de los valores de probabilidad (de predecesores y de sucesores) son iguales a 1; si no, son valores inferiores. En ambos casos, el porcentaje "residual" es determinado por el hecho de que hay predecesores y sucesores no incluidos en el análisis.
Por ejemplo,
la secuencia representada en la imagen siguiente es constituida por 39 acontecimientos:
de éstos, solamente 16 (las hipotéticas unidades en análisis)
"se cubren" (las cajas grises). Es porque algunos de ellos (véase
aquéllos correspondientes a las ocurrencias de la unidad "A")
tienen predecesores y sucesores no incluidos en el análisis (cajas blancas).

Diferentemente, cuando el usuario analiza un archivo externo todos los acontecimientos "se cubren".
NOTA: Para analizar un archivo externo, el usuario debe colocar un archivo de Sequence.dat en la carpeta del trabajo; entonces, después de abrir un proyecto existente, él debe seleccionar el Análisis de Secuencias (opción "usuario").
El método del cálculo, los gráficos y las tablas son análogos a ésos ya descritos (véase arriba).
El
archivo de Sequence.dat, que puede contener cada clase de etiquetas (e.g. los
nombres en una conversación, las categorías obtenidas por análisis
del contenido, las clases de acontecimientos,etc.), se debe componer por "N"
líneas (mínimo 50 máximo 10.000), cada una con una etiqueta
de máximo 50 caracteres, sin signos de puntuación o espacios en
blanco.
Los
tipos de etiquetas deben ser máximo 250.
He aquí algunos ejemplos de Sequence.dat en el formato correcto:
|
Hamlet |
|
event_01 |
Tanto
en el caso de secuencias de unidades lexicales (corpus analizado) como en el
de secuencias incluidas en un archivo externo (Sequence.dat), T-LAB
produce tres tablas en la carpeta MY-OUTPUT:
- T_Successors.xls, con las probabilidades de transición
de sucesores;
- T_Predecessors.xls, con las probabilidades de
transición de predecesores;
- Frequency_Average_Order.xls, proporcionada
solo cuando el corpus se compone de textos breves como las respuestas a preguntas
abiertas, con la frecuencia y el rango medio de comparición
(o evocación) de cada palabra;
- Adjacency_Matrix.XLS , proporcionada solo cuando
la lista de las unidades lexicales incluye hasta 250 items), que se puede utilizar
para generar otras medidas y otros gráficos típicos del análisis
de red (Network Analysis).

Por otra parteT-LAB nos permite exportar archivos de GraphML que se pueden editar por el software yEd (véase abajo).
