Analisi delle Sequenze
Questo strumento T-LAB consente di realizzare un'analisi markoviana di due tipi di sequenze:
A) quelle concernenti le relazioni tra unità lessicali (parole, lemmi o categorie) presenti nel corpus in analisi o in suoi sottoinsiemi (vedi pulsante CORPUS nell'immagine seguente);
B) quelle presenti in file esterni predisposti dall'utilizzatore (vedi pulsante FILE e descrizione a fine di questa sezione a fine sezione).

Nel primo caso (A), le sequenze sono relazioni sintagmatiche tra le unità lessicali (parole, lemmi o categorie), ciascuna delle quali, per ogni sua occorrenza entro la "catena" del corpus, ha un predecessore e un successore.
A partire da una matrice in cui sono registrati tutti i predecessori e tutti i successori di ogni unità lessicale, T-LAB calcola le probabilità di transizione (catene markoviane) tra le varie unità lessicali analizzate (max 1500).
Gli output disponibili - tutti cliccabili - sono grafici e tabelle.
Nei grafici, le unità lessicali meno distanti da quella selezionata sono quelle che risultano avere maggiore probabilità di precederla (predecessori) o di seguirla (successori).


Due tabelle riportano l'elenco ordinato dei predecessori e dei successori di ogni unità lessicale selezionata.
L'ordinamento è di tipo decrescente sui valori di probabilità ("PROB"). Ad esempio, nella tabella seguente, la probabilità che "suicida" segua "terrorista" è pari a 0.101 , ovvero pari all'10.1 %.

L'opzione "triade" consente di visualizzare alcune tabelle con sequenze di tre elementi in cui, a seconda della scelta dell'utilizzatore, il lemma selezionato è in prima, seconda o terza posizione. Per ciascuna triade T-LAB riporta le corrispondenti occorrenze.
N.B. All'interno delle triadi, le parole vuote non sono incluse.

Secondo la teoria dei grafi, i predecessori e i successori di ogni nodo (nel nostro caso, unità lessicali) possono essere rappresentati con delle frecce (archi) in ingresso (in-degree = tipi di predecessori), o in uscita (out-degree = tipi di successori).

Ad esempio,
nella tabella seguente "islam" ha 68 tipi di successori e 60 tipi
di predecessori.
In base al loro rapporto (successori/predecessori), è possibile verificare
la varietà semantica generata dal nodo in questione:
- se è maggiore di quanta ne riceve (ratio > 1), il nodo è
definito "sorgente";
- se è tanta quanta ne riceve (ratio = 1), il nodo è definito
"relais";
- se è minore di quanta ne riceve (ratio < 1), il nodo è definito
"assorbente".
Nella stessa tabella, per ogni unità lessicale, la colonna "cover" (coverage) indica in che misura (percentuale) le sue occorrenze sono precedute o seguite da unità lessicali incluse nella lista definita dall'utilizzatore.

Quando le unità analizzate "coprono" la totalità di
quelle presenti nel corpus (vedi applicazione di griglie per l'analisi di contenuto
e/o uso di file esterni), il valore di "cover" è uguale a 1;
diversamente, è un valore inferiore.
Inoltre: quando il valore di "cover" è uguale a 1, anche la
sommatoria delle probabilità (sia per i predecessori che per i successori)
è uguale a 1; diversamente, è un valore inferiore.
In entrambi i casi, le percentuali "residue" sono determinate dal
fatto che vi sono predecessori e successori non inclusi nell'analisi.
Si consideri ad esempio la sequenza rappresentata nell'immagine seguente. Essa è costituita da 39 eventi: di questi, solo 16 (le ipotetiche unità in analisi) sono "coperti" (quadratini in grigio). Ciò a causa del fatto che alcuni di essi, ad esempio quelli corrispondenti alle occorrenze dell'unità lessicale "A", hanno come predecessori e successori anche unità lessicali non incluse nell'analisi (quadratini in bianco).

Differentemente, quando l'utilizzatore analizza un file esterno tutti gli eventi sono "coperti".
Per analizzare un file esterno, l'utilizzatore deve collocare un file Sequence.dat all'interno della cartella di lavoro; quindi, dopo aver aperto un corpus esistente, deve selezionare l'opzione Analisi delle Sequenze (modalità "user").
Il metodo di calcolo e gli output (grafici e tabelle) sono analoghi a quelli già descritti (vedi sopra).
Il
file Sequence.dat, che può contenere ogni tipo di sequenze (ad es. nomi
degli interlocutori di una conversazione, categorie ottenute mediante analisi
di contenuto, nomi di eventi, etc.), deve essere costituito da "N"
record (min. 50 max 10.000), ciascuno costituito da una label di max 50 caratteri,
senza spazi bianchi e senza segni di punteggiatura.
I
tipi di eventi (tags) non devono essere più di 250.
La struttura del file Sequence.dat è quindi quella di un semplice elenco
(vedi esempi seguenti):
|
Hamlet |
|
event_01 |
Sia nel
caso delle sequenze concernenti le unità lessicali del corpus che nel
caso delle sequenze registrate in un file esterno (Sequence.dat), T-LAB
produce tre tabelle collocate all'interno della cartella MY-OUTPUT:
- T_Successors.xls, con le probabilità di transizione
dei successori;
- T_Predecessors.xls con le probabilità di transizione
dei predecessori;
- Frequency_Average_Order.xls, disponibile
solo quando il corpus è costituito da testi brevi quali le risposte a
domande aperte, con la frequenza e il rango medio di comparizione (o evocazione)
di ogni parola;
- Adjacency_Matrix.xls (matrice di adiacenza),
disponibile solo quando la lista delle unità lessicali
include meno di 250 items,che può essere utilizzata dagli utenti esperti
per generare misure e grafici tipici della Network
Analysis.
La struttura della matrice di adiacenza è la seguente:
- in riga i successori (out-degree)
- in colonna i predecessori (in-degree).

Inoltre T-LAB consente di esportare file GraphML che possono essere editati mediante il software yEd (vedi sotto).
