www.tlab.it

Analisi Tematica dei Contesti Elementari


Questo strumento T-LAB consente di costruire ed esplorare una rappresentazione dei contenuti del corpus attraverso pochi e significativi cluster tematici (minimo 3, massimo 50), ciascuno dei quali:

a) risulta costituito da un insieme contesti elementari (frasi, paragrafi o testi brevi quali risposte a domande aperte) caratterizzati dagli stessi pattern di parole chiave;

b) è descritto attraverso le unità lessicali (parole, lemmi o categorie) e le variabili (se presenti) che più caratterizzano i contesti elementari da cui è composto

Per molti versi, si può affermare che il risultato dell'analisi propone una mappatura delle isotopie (iso = uguale; topoi = luoghi) intese come temi "generali" o "specifici" (Rastier, 2002: 204) caratterizzati dalla co-occorrenza di tratti semantici. In effetti ogni cluster, caratterizzato da insiemi di unità lessicali che condividono gli stessi contesti di riferimento, consente di ricostruire "un filo" del discorso all'interno della trama complessiva costituita dal corpus o da un suo sottoinsieme.



Una finestra di dialogo (vedi sopra) consente di scegliere alcuni parametri dell'analisi.

In particolare:

- il parametro (A) permette di fissare il numero massimo di partizioni da includere negli output T-LAB;
- il parametro (B) permette di escludere dall'analisi le unità di contesto che non contengono un numero minimo di parole chiave (co-occorrenze) incluse nella lista predisposta dall'utilizzatore.

N.B.:
I suddetti parametri producono cambiamenti significativi nei risultati dell'analisi solo quando il numero di unità di contesto è molto grande e/o quando esse sono costituite da testi corti.

La procedura di analisi è costituita dai seguenti step:

a - costruzione di una tabella dati unità di contesto x unità lessicali (max 150.000 righe x 1.500 colonne), con valori del tipo presenza/assenza;
b - pretrattamento dei dati tramite TF-IDF e trasformazione di ogni vettore riga a lunghezza 1 (norma euclidea);
c - uso della misura del coseno e clusterizzazione delle unità di contesto tramite il metodo bisecting K-means;
d - archiviazione delle varie partizioni ottenute e, per ciascuna di esse:
e - costruzione di una tabella di contingenza unità lessicali x cluster (n x k);
f - test del chi quadro applicato a tutti gli incroci cluster x unità lessicali;
g -
analisi delle corrispondenze della tabella di contingenza unità lessicali x cluster.

Quindi, questa procedura realizza un tipo di analisi delle co-occorrenze (step a-b-c) e, a seguire, un tipo di analisi comparativa (e-f-g). In particolare, l'analisi comparativa usa come colonne delle tabelle di contingenza le modalità della "nuova variabile" derivata dall'analisi delle co-occorrenze (modalità della nuova variabile = cluster tematici).

N.B.: Quando l'utilizzatore decidere di ripetere/applicare i risultati di una precedente analisi tematica (sia Analisi Tematica dei Contesti Elementari che Modellizzazione dei Temi Emergenti), T-LAB realizza soltanto un'analisi comparativa dei cluster già ottenuti (passi e-f-g).

Al termine dell'analisi l'utilizzatore può agevolmente effettuare le seguenti operazioni:


1 - esplorare le caratteristiche dei cluster;
2 - esplorare le relazioni tra cluster;
3 - esplorare le relazioni tra cluster e variabili;
4 - esplorare le diverse partizioni dei cluster;
5 - raffinare i risultati della partizione prescelta e, se necessario, ripetere alcuni dei passi sopra descritti (1,2,3);
6 - assegnare label ai cluster;
7 - verificare quali contesti elementari appartengono a ciascun cluster;
8 - verificare il "peso" di ciascun contesto elementare entro il cluster a cui appartiene;
9- esportare una classificazione tematica dei documenti (solo nel caso in cui il corpus è costituito da almeno 2 documenti primari e questi non sono testi corti trattati come contesti elementari);
10- archiviare la partizione selezionata per esplorarla con altri strumenti T-LAB.

Nel dettaglio:

1 - Esplorare le caratterisitiche dei cluster


Cliccando il pulsante CARATTERISTICHE, per ogni cluster vengono mostrate le unità lessicali e le variabili che lo caratterizzano; e, per ciascuna di esse (unità lessicali o variabili), sono riportati: i valori del chi quadro e le sommatorie dei contesti elementari in cui risulta presente, sia all'interno del cluster selezionato ("IN CLUST") che all'interno dell'insieme analizzato ("IN TOT"). Inoltre, nella colonna "CAT", viene indicato se la caratteristica è stata selezionata dall'utilizzatore nella funzione Impostazioni di Analisi ("A") oppure se è stata proposta da T-LAB come descrizione "supplementare" ("S").

Nel caso del test del chi quadro la struttura della tabella analizzata è la seguente:


Dove:
nij si riferisce alle occorrenze della parola (a) all'interno del cluster selezionato (A);
Nj si riferisce a tutte le occorrenze della parola (a) all'interno del corpus (o del sottoinsieme) in analisi;
Ni si riferisce a tutte le occorrenze all'interno del cluster selezionato (A);
N si riferisce a tutte le occorrenze della tabella di contingenza parole per cluster.

Un report HTML (vedi sotto) consente una dettagliata verifica delle caratteristiche dei cluster. In questo, oltre alla lista delle parole tipiche, vengono mostrati - ordinati in modo decrescente in base al rispettivo peso (score) - i contesti elementari che più caratterizzano il cluster in esame.

Grafici a torta e istogrammi (vedi sotto) consentono di verificare la percentuale delle unità di contesto appartenenti ad ogni cluster.

 

2 - Esplorare le relazioni tra cluster

Alcuni grafici, ottenuti tramite Analisi delle Corrispondenze consentono di esplorare le relazioni tra i cluster all'interno di spazi bidimensionali.
Più specificamente:
- Per esplorare le varie combinazioni degli assi fattoriali è sufficiente selezionarli negli appositi box ("Asse X", "Asse Y");
- Per ciascuna delle combinazioni (X-Y), è possibile visualizzare vari tipi di elementi (cluster, lemmi e variabili).

Tutti i grafici possono essere personalizzati tramite l'uso di apposite finestre di dialogo (uso del tasto destro del mouse). Inoltre quando i cluster tematici sono più di tre, le loro relazioni possono essere esplorate tramite grafici 3D (vedi sotto).

Come nella funzione Analisi delle Corrispondenze, selezionando gli appositi pulsanti (vedi sotto) compaiono delle tabelle che riportano le caratteristiche delle polarità fattoriali in esame (X-Y).

Una specifica opzione (vedi sotto) consente di visualizzare ed esportare i Risultati Completi dell'analisi delle corrispondenze unità lessicali x cluster.

Una ulteriore opzione (vedi sotto) consente di visualizzare/esportare la Tabella di Contingenza e di creare grafici che mostrano sia le distribuzioni delle singole parole all'interno dei cluster che i rispettivi valori del chi quadrato.
Inoltre, cliccando su specifiche celle della stessa tabella, è possibile creare file HTML con tutti i contesti elementari in cui la parola in riga è presente nel cluster in colonna.

 

3 - Esplorare le relazioni tra cluster e variabili

Alcuni istogrammi consentono di verificare le relazioni tra cluster e modalità delle variabili.

Ulteriori relazioni tra cluster e variabili possono essere esplorate con le opzioni disponibili nella sezione Analisi Fattoriale (vedi sopra)

4 - Esplorare le diverse partizioni

Poiché l'algoritmo usato da T-LAB (bisecting K-Means) produce una clusterizzazione gerarchica, l'utilizzatore può agevolmente esplorare diverse soluzioni dell'analisi: partizioni da 3 a 50 clusters.

Per ogni partizione ottenuta, un'apposita tabella (vedi sotto) riporta i seguenti valori:
- "Index", che corrisponde al rapporto tra varianza intercluster e varianza totale;
- "Gap", che indica la differenza tra il valore dell'index e quello della partizione immediatamente precedente:
- Numero del cluster "figlio" (child) ottenuto attraverso dalla bi-sezione del corrispondente "genitore" ("parent").


L'opzione partizioni (vedi sopra) consente di esplorare agevolmente le caratteristiche delle varie soluzioni disponibili.

Inoltre l'opzione dendrogramma (vedi sotto) consente di verificare l'albero delle varie bi-sezioni.

5 - Raffinare i risultati della partizione prescelta

Dopo aver esplorato diverse soluzioni, l'utilizzatore può raffinare i risultati della partizione prescelta e, se necessario, ripetere alcuni dei passi sopra descritti (1,2,3).

In particolare, questa funzione T-LAB consente di escludere dall'analisi tutte le unità di contesto la cui appartenenza a un cluster non soddisfa i seguenti criteri:
a) per ogni unità di contesto, il cluster di appartenenza determinato mediante l'algoritmo del bisecting K-Means (unsupervised clustering) e quello determinato mediante il Naïve Bayes Classifier (supervised clustering) deve essere il medesimo;
b) il massimo valore della probabilità a posteriori, corrispondente all'appartenenza della i-unità di contesto al k-cluster, deve essere - in termini percentuali - superiore di almeno il 50 % ai valori delle probabilità a posteriori computate per la stessa i-unità di contesto nei rimanenti cluster.

Tutti i risultati di questo calcolo sono in una tabella esportata da T-LAB (vedi sotto), che contiene i valori delle probabilità a posteriori espressi in termini percentuali.


6 - Assegnare label ai cluster

Un'apposita funzione T-LAB consente di attribuire label ai cluster.
(N.B: Al primo uso alcune label sono proposte automaticamente dal software).

Le label attribuite ai vari cluster possono essere visualizzate nei vari grafici disponibili (vedi sotto).

7 - Verificare quali contesti elementari appartengono a ciascun cluster
8 - Verificare il "peso" di ciascun contesto elementare entro il cluster a cui appartiene
9 - Esportare una classificazione tematica dei documenti

Infatti il pulsante Cluster Membership consente di esportare tre tipi di tabelle (vedi sotto) in formato MS Excel:

a - "Cluster_Partitions.xls", con tutte le corrispondenze unità di contesto x cluster all'interno delle varie partizioni;



b - "Themes-Contexts.xls" (vedi sotto) con le corrispondenze unità di contesto x cluster all'interno della partizione selezionata.

In particolare, il valore di rilevanza (score) assegnato ad ogni j-contesto elementare appartenente al k-cluster è calcolato nel modo seguente:

Dove:

Scorej = valore di rilevanza attribuito al contesto elementare (j);

SXij = somma dei valori del chi-quadrato corrispondenti alle parole chiave (i) trovate nel contesto elementare in questione (j) e che sono risultate tipiche del cluster (k);

nj = totale delle parole chiave (parole distinte), tipiche del cluster (k), trovate nel contesto elementare (j);

N = totale delle parole chiave (parole distinte) tipiche del cluster (k).

 

c - " Ec_Document_Classification.xls" (output fornito solo nel caso in cui il corpus è costituito da almeno 2 documenti primari e questi non sono testi corti trattati come contesti elementari) che elenca le "appartenenze miste" di ogni documento (vedi sotto).

In questo caso i valori derivano dalla formula già illustrata (vedi punto "b"), sommando gli score dei contesti elementari appartenenti a ogni documento ed applicando un calcolo di percentuali.

10 - Archiviare la partizione selezionata per esplorarla con altri strumenti T-LAB

All'uscita dalla funzione Analisi Tematica dei Contesti Elementari, alcuni messaggi ricordano che è possibile esplorare i cluster ottenuti con altri strumenti T-LAB.

Scegliendo l'opzione "Salva", la variabile < CONT_CLUST > (cluster di contesti elementari) resta disponibile solo in alcuni tipi di analisi (es. Sequenze di Temi, Associazioni di Parole, Confronti tra Coppie e Co-Word Analysis) e fino a quando l'utilizzatore modifica la lista delle parole chiave.