www.tlab.it

T-LAB: qué hace y qué permite hacer


T-LAB es un software compuesto por un conjunto de instrumentos lingüísticos y estadísticos para el análisis de textos que pueden ser utilizados en las siguientes áreas de aplicación: Semantic Analysis, Content Analysis, Perceptual Mapping, Text Mining, Discourse Analysis.

Las herramientas T-LAB permiten tres tipos de análisis:

A - análisis de co-ocurrencias de palabras-clave: índices de asociación, comparaciones entre parejas, análisis de co-palabras, análisis de secuencias, concordancias;
B - análisis temáticos de las unidades de contexto: modelización de temas emergentes, análisis temático de contextos elementales (ej. fragmentos de texto, frases o párrafos), secuencias de temas, clasificación temática de documentos, contextos clave de palabras temáticas;
C - análisis comparativos de los diferentes subconjuntos del corpus: análisis de especificidades, análisis de correspondencias, análisis de correspondencias múltiple, cluster
análisis.

Su interfaz es muy fácil de utilizar y los textos a analizar pueden ser de varios tipos:
- un único texto (ej. una entrevista, un libro, etc.);
- un conjunto de textos (ej. más entrevistas, páginas web, artículos de periódicos, respuestas a preguntas abiertas, etc.).

Todos los textos a analizar pueden ser codificados con variables categoriales y pueden incluir un identificativo (IDnumber) que corresponde a unidades de contexto o casos (ej. respuestas a preguntas abiertas).

Cada corpus (uno o más textos) tiene que ser en el formato ASCII/ANSI (sólo texto) con la extensión "txt" y no puede exceder 30 Mb (alrededor 18.000 páginas).

Para verificar rápidamente las funciones del software son suficientes seis pasos:

1 - Seleccionar el idioma de l'interfaz y el del corpus que se analizará

2 - Seleccionar un corpus a analizar

3 - Pulsar "GO" en la ventana de Configuración

Durante el proceso de importación, T-LAB realiza los tratamientos siguientes:

4 - Seleccionar una herramienta en uno de los submenús de "Análisis"

5 - Verificar los resultados

6 - Utilizar la ayuda contextual para interpretar gráficos y tablas.


Esta sección introductoria proporciona las informaciones básicas para entender cómo funciona T-LAB y cómo se puede utilizar.

Desde el punto de vista externo, el uso del software está organizado por la interfaz, es decir por el menú principal, los submenús y las funciones que lo componen.

Desde el punto de vista lógico, además de la interfaz, el sistema T-LAB está organizado por dos componentes principales:

Para entender como funciona T-LAB y como puede usarse es muy importante tener claro qué unidades de análisis se archivan en su base de datos y cuáles algoritmos estadísticos se usan en los distintos análisis. En efecto, las tablas de datos analizadas están siempre constituidas por filas y columnas cuyos membretes corresponden a las unidades de análisis archivadas en la base de datos, mientras que los algoritmos regulan los procesos que permiten descubrir relaciones significativas entre los datos y extraer informaciones útiles.

Las unidades de análisis de T-LAB son de dos tipos: unidades lexicales y unidades de contexto.

A - las UNIDADES LEXICALES son palabras, simples o múltiples, archivadas y clasificadas en base a un cierto criterio. En particular, en la base de datos T-LAB, cada unidad lexical constituye un registro clasificado con dos campos: palabra y lema. En el primer campo (palabra) se enumeran las palabras así como aparecen en el corpus, mientras que en el segundo (lema), se enumeran las etiquetas atribuidas a grupos de unidades lexicales clasificadas según criterios lingüísticos (ej. lematización) o a través de diccionarios y plantillas semánticas definidas por el usuario.

B - las UNIDADES DE CONTEXTO son porciones de texto en las que se puede dividir el corpus. En particular, en la lógica T-LAB, las unidades de contexto pueden ser de tres tipos:

B.1 documentos primarios correspondientes a la subdivisión "natural" del corpus (ej. entrevistas, artículos, respuestas a preguntas abiertas, etc.), o sea a los contextos iniciales definidos por el usuario;
B.2 contextos elementales, correspondientes a las unidades sintagmáticas (ej. fragmentos de texto, frases, párrafos) en las cuales cada documento primario puede ser subdividido;
B.3 subconjuntos del corpus que corresponden a grupos de documentos primarios atribuibles a la misma categoría (es. entrevistas de "hombres" o de "mujeres", artículos de un determinado año o de un determinado periódico, y así sucesivamente) o a clústers temáticos conseguidos a través de específicos instrumentos T-LAB.

A partir de esta organización de la base de datos, T-LAB permite - automáticamente - explorar y analizar las relaciones entre las unidades de análisis de todo el corpus o de sus subconjuntos.

En T-LAB, la elección de cualquier instrumento de análisis (clic del ratón) activa siempre un proceso semi-automático que, con pocas o simples operaciones, genera algunas tablas input, aplica algún algoritmo de tipo estadístico y crea algunos outputs (ver diagrama siguiente).

Hipotéticamente, cada proyecto de trabajo en el que se usa T-LAB está constituido por el conjunto de actividades analíticas (operaciones) que tienen por objeto el mismo corpus y está organizado por una estrategia y por un plan del usuario. Por lo tanto, inicia con la recolección de textos a analizar y termina con la redacción de un informe.


La sucesión de las distintas fases está ilustrada en el siguiente diagrama:


NOTA:
- Las seis fases numeradas, desde la preparación del corpus a la interpretación de los output, tienen el soporte de los instrumentos T-LAB y son siempre reversibles;
- Por medio de las configuraciones automáticas T-LAB se pueden evitar dos fases (3-4); sin embargo, a los fines de la calidad de los resultados se recomienda la ejecución de las mismas.


1 - La PREPARACIÓN DEL CORPUS consiste en la transformación de los textos a analizar en un archivo (corpus) que puede ser elaborado por el software.

Cada corpus que debe ser analizado, para ser importado a T-LAB, tiene que ser en el formato ASCII/ANSI (sólo texto) con la extensión "txt".

En el caso de un único texto (o corpus considerado como único texto), T-LAB no necesita nada más.

Cuando, en cambio, el corpus está formado por varios textos y hay códigos que hacen referencia a algunas variables del corpus, en la fase de preparación se tienen que respetar algunos criterios (Véase la sección Preparación del Corpus).

Al término de la fase de preparación se recomienda crear una nueva carpeta de trabajo en cuyo interior sólo se encuentre el archivo corpus a importar.


2 - LA IMPORTACIÓN DEL CORPUS consiste en una serie de procesos automáticos que transforman el corpus en un conjunto de tablas integradas en la base de datos T-LAB.

Una vez seleccionada la opción Nuevo Corpus, la intervención del usuario (opciones avanzadas) será necesaria para definir las opciones indicadas en la ventana siguiente:

NOTA:
- La selección de la lengua (obligatoria) determina el proceso de lematización. Actualmente la lematización automática está disponible en los cuatro idiomas en en cinco idiomas: italiano, francés, inglés, español y portugués. De todos modos, sin lematización automática y/o usando diccionarios personalizados se pueden analizar textos en todos los idiomas (o dialectos) que admiten los caracteres ASCII (véase arriba la opción "other");
- Los usuarios inexpertos pueden aceptar las opciones pre-seleccionadas por T-LAB;
- Puesto que diferentes opciones determinan el tipo y la cantidad de unidades de análisis (es decir las unidades de contexto y las unidades lexicales), diversas opciones determinan diversos resultados de análisis. Por esta razón, todos los outputs de T-LAB (es decir gráficos y tablas) utilizados en el manual del usuario y en la ayuda en red son solo indicativos.


3 - El USO DE LAS HERRAMIENTAS LÉXICO está destinado a verificar el correcto reconocimiento de las unidades lexicales y a personalizar su clasificación, es decir a verificar y modificar las selecciones automáticas hechas por T-LAB.

Las modalidades de las diversas intervenciones están descritas en las correspondientes voces de la ayuda (y del manual).

En particular se redirecciona a la correspondiente voz de la ayuda (y del manual) para una descripción detallada del proceso Personalización del Diccionario.

 

4 - LA SELECCIÓN DE LAS PALABRAS-CLAVE consiste en la predisposición de una o más listas de unidades lexicales (palabras, lemas o categorías) a utilizar para crear las tablas de datos a analizar.

La opción configuración automática pone a disposición listas de palabras clave seleccionadas por T-LAB; sin embargo, dado que la elección de las unidades de análisis es muy relevante en relación a las sucesivas elaboraciones, se aconseja vivamente el uso de la configuración personalizada. De este modo el usuario podrá elegir la modificación de la lista sugerida por T-LAB y/o crear listas que correspondan mejor con sus objetivos de investigación.

En la creación de estas listas, son válidos los siguientes criterios:

- verificar la relevancia cuantitativa (total de las ocurrencias) y cualitativa (no banalidad del significado) de los distintos términos;
- verificar las limitaciones de los instrumentos analíticos que se desean utilizar;
- verificar si el conjunto de los términos es compatible con la propia estrategia de investigación (ver punto siguiente: 5).

5 - EL USO DE LOS INSTRUMENTOS DE ANÁLISIS está destinado a la producción de outputs (tablas y gráficos) que representan relaciones significativas entre las unidades de análisis y que permiten hacer inferencias.

Actualmente (versión 7.3), T-LAB incluye quince diversas herramientas de análisis y cada una de ellas tiene su propia lógica; es decir, cada herramienta utiliza algoritmos específicos y produce output específicos.

Por lo tanto, dependiendo de la estructura de los textos a analizar y de las metas a alcanzar, cada vez el usuario tiene que decidir qué herramientas son más apropiadas para su estrategia de análisis.

Para este propósito, además de la distinción entre instrumentos para análisis de co-ocurrencias, análisis comparativos y análisis temáticos, puede ser útil tomar en cuenta que algunos de estos nos permiten obtenir nuevas unidades del análisis que se pueden incluir en otros procesos.

En particular, los instrumentos Modelización de Temas Emergentes, Análisis temático de Contextos Elementales y Clasificación Temáticas de Documentos permiten obtener clústers de unidad de contexto caracterizados por semejanzas en la distribución de palabras. Estos clústers, (modalidades de nuevas variables obtenidas a través de análisis del contenido) pueden ser utilizados en nuevos análisis acerca de los subconjuntos del corpus.


Sin embargo, teniendo en cuenta que el uso de las herramientas T-LAB puede ser circular y reversible, podríamos escoger tres puntos de inicio (start points) que corresponden a los tres sub-menús de ANÁLISIS:

A : INSTRUMENTOS PARA ANÁLISIS DE CO-OCCURRENCIAS

Estos instrumentos permiten analizar varios tipos de relaciones entre las palabras clave.



Según los tipos de relaciones a analizar, las funciones T-LAB indicadas en este diagrama usan uno o más de los siguientes instrumentos estadísticos: Índices de Asociación, Test del Chi Cuadrado, Cluster Analysis y Multidimensional Scaling y Cadenas Markovianas.

He aquí algunos ejemplos de output:

- Asociaciones de Palabras

- Comparaciones entre Parejas

- Análisis de Co-Palabras y Mapas Conceptuales

 

- Análisis de Secuencias

 

 

B : INSTRUMENTOS PARA ANÁLISIS COMPARATIVOS

Estos instrumentos permiten analizar varios tipos de relaciones entre las unidades de contexto.

El Análisis de las Especificidades permite verificar cuáles palabras son "típicas" o "exclusivas" de cada subconjunto del corpus.

El Análisis de Correspondencias permite explorar varios tipos de relaciones (semejanzas y diferencias) entre grupos de unidades de contexto.

El Cluster Analysis, que utiliza los resultados de un precedente Análisis de Correspondencias, puede ser realizado en diferentes maneras.

 

C : INSTRUMENTOS PARA ANÁLISIS TEMÁTICOS

Estos instrumentos permiten individuar, examinar y trazar el mapa de los "temas" que emergen de los textos analizados.

Puesto que Tema es una palabra polisémica, cuando se usa software para análisis temático es útil hacer referencia a algunas definiciones operativas.
En los instrumentos T-LAB, "tema" es una etiqueta usada para indicar tres diferentes entidades:

1- una específica palabra clave ("temática") usada para extraer un conjunto de contextos elementales. Esta palabra está asociada con un específico conjunto de palabras preseleccionadas por el usuario (ver el instrumento Contextos Clave de Palabras Temáticas);

2- un clúster temático de unidades de contexto caracterizados por los mismos modelos de palabras clave (ver los instrumentos Análisis Temático de Contextos Elementales y Clasificación Temática de Documentos);

3- un componente de un modelo probabilista que representa cada unidad de contexto (contextos elementales o documentos) generado de una mezcla de "temas" (ver el instrumento Modelización de los Temas Emergentes).

En detalle:


- la herramienta Contextos Clave de Palabras Temáticas (ver abajo), que usa el coeficiente del coseno para medir similitud, permite extraer conjuntos de contextos elementales que ponen de relieve el valor temático de específicas palabras clave.


- el instrumento Modelización de los Temas Emergentes (ver abajo) usa un método Bayesiano. Los "componentes mezclados" (describidos a través de sus específicos vocabularios y los "temas" obtenidos) pueden ser utilizados tanto para clasificar las unidades de contextos como para construir categorías aplicables en sucesivos análisis de contenido.

- tanto el Análisis Temático de Contextos Elementales como la Clasificación Temática de Documentos funcionan en la siguiente manera:

a- realizan un análisis de co-ocurrencias para obtener los clusters temáticos de unidades de contexto;
b- realizan un análisis comparativo para confrontar los perfiles de los distintos clusters;
c- generan varios tipos de gráficos y tablas (ver a continuación);
d- permiten archivar las nuevas variables obtenidas (clusters temáticos) y utilizarlas en análisis posteriores.

 

6 - LA INTERPRETACIÓN DE LOS OUTPUT consiste en la consulta de las tablas y de los gráficos producidos por T-LAB, en la eventual personalización de su formato y en el hacer inferencias sobre el significado de las relaciones en los mismos representados.

En el caso de las tablas, según los casos, T-LAB permite exportarlas en filas con las siguientes extensiones: .DAT, .TXT, .XLS, .HTML. Esto significa que, utilizando cualquier editor de textos y/o de cualquier aplicativo de la suite Microsoft Office, el usuario puede, fácilmente, importarlos y reelaborarlos.

Todos los gráficos y tablas pueden ser maximizados, personalizados y exportados en diferentes formatos (hacer clic con el botón derecho del ratón para ver los pop up menús).

 

 

En un paper citado en Bibliografía (Lancia F.: 2005) y disponible en el sitio www.tlab.it se mencionan algunos criterios generales para la interpretación de los outputs T-LAB. En el mismo se propone la hipótesis que los output de las elaboraciones estadísticas (tablas y gráficos) son un tipo particular de textos, es decir son objetos multi-semióticos caracterizados por el hecho que las relaciones entre los signos y los símbolos están ordenadas por medidas que redireccionan a códigos específicos.

En otros términos, tanto en el caso de textos escritos en lenguaje natural como en los escritos en el lenguaje de la estadística, la posibilidad de hacer inferencias sobre las relaciones que organizan las formas del contenido está garantizada por el hecho de que las relaciones entre las formas de la expresión no son casuales (random); de hecho, en el primer caso (lenguaje natural) las unidades significantes se subsiguen ordenadas según un modo lineal (una tras otra en la cadena del discurso), mientras que en el segundo caso (tablas y gráficos) los principios de ordenación están constituidos por las medidas que determinan la organización de los espacios semánticos multidimensionales.

Si bien los espacios semánticos representados en los mapas T-LAB son muy variados y cada uno de esos requiere procedimientos de interpretación específicos, se puede suponer que - en general - la lógica del proceso inferencial es la siguiente:

A - sacar cualquier relación significativa entre las unidades "presentes" en el plano de la expresión (por ej. entre "datos" de tablas y/o entre "etiquetas" de gráficos);
B - explorar y comparar los componentes semánticos de las mismas unidades y los contextos a los que están mentalmente y culturalmente asociadas (plano del contenido);
C - construir algunas hipótesis o algunas "categorías" de análisis que, en el contexto definido por el corpus den cuenta de las relaciones entre formas de la expresión y formas del contenido.