www.tlab.it

Analisi delle Sequenze


Questo strumento T-LAB consente di realizzare un'analisi markoviana di due tipi di sequenze:

A) quelle concernenti le relazioni tra unità lessicali (parole, lemmi o categorie) presenti nel corpus in analisi o in suoi sottoinsiemi (vedi pulsante CORPUS nell'immagine seguente);

B) quelle presenti in file esterni predisposti dall'utilizzatore (vedi pulsante FILE e descrizione a fine di questa sezione a fine sezione).

Nel primo caso (A), le sequenze sono relazioni sintagmatiche tra le unità lessicali (parole, lemmi o categorie), ciascuna delle quali, per ogni sua occorrenza entro la "catena" del corpus, ha un predecessore e un successore.

A partire da una matrice in cui sono registrati tutti i predecessori e tutti i successori di ogni unità lessicale, T-LAB calcola le probabilità di transizione (catene markoviane) tra le varie unità lessicali analizzate (max 1500).

Gli output disponibili - tutti cliccabili - sono grafici e tabelle.

Nei grafici, le unità lessicali meno distanti da quella selezionata sono quelle che risultano avere maggiore probabilità di precederla (predecessori) o di seguirla (successori).

Due tabelle riportano l'elenco ordinato dei predecessori e dei successori di ogni unità lessicale selezionata.

L'ordinamento è di tipo decrescente sui valori di probabilità ("PROB"). Ad esempio, nella tabella seguente, la probabilità che "suicida" segua "terrorista" è pari a 0.101 , ovvero pari all'10.1 %.

L'opzione "triade" consente di visualizzare alcune tabelle con sequenze di tre elementi in cui, a seconda della scelta dell'utilizzatore, il lemma selezionato è in prima, seconda o terza posizione. Per ciascuna triade T-LAB riporta le corrispondenti occorrenze.

N.B. All'interno delle triadi, le parole vuote non sono incluse.

Secondo la teoria dei grafi, i predecessori e i successori di ogni nodo (nel nostro caso, unità lessicali) possono essere rappresentati con delle frecce (archi) in ingresso (in-degree = tipi di predecessori), o in uscita (out-degree = tipi di successori).

Ad esempio, nella tabella seguente "islam" ha 68 tipi di successori e 60 tipi di predecessori.
In base al loro rapporto (successori/predecessori), è possibile verificare la varietà semantica generata dal nodo in questione:
- se è maggiore di quanta ne riceve (ratio > 1), il nodo è definito "sorgente";
- se è tanta quanta ne riceve (ratio = 1), il nodo è definito "relais";
- se è minore di quanta ne riceve (ratio < 1), il nodo è definito "assorbente".

Nella stessa tabella, per ogni unità lessicale, la colonna "cover" (coverage) indica in che misura (percentuale) le sue occorrenze sono precedute o seguite da unità lessicali incluse nella lista definita dall'utilizzatore.


Quando le unità analizzate "coprono" la totalità di quelle presenti nel corpus (vedi applicazione di griglie per l'analisi di contenuto e/o uso di file esterni), il valore di "cover" è uguale a 1; diversamente, è un valore inferiore.
Inoltre: quando il valore di "cover" è uguale a 1, anche la sommatoria delle probabilità (sia per i predecessori che per i successori) è uguale a 1; diversamente, è un valore inferiore.
In entrambi i casi, le percentuali "residue" sono determinate dal fatto che vi sono predecessori e successori non inclusi nell'analisi.

Si consideri ad esempio la sequenza rappresentata nell'immagine seguente. Essa è costituita da 39 eventi: di questi, solo 16 (le ipotetiche unità in analisi) sono "coperti" (quadratini in grigio). Ciò a causa del fatto che alcuni di essi, ad esempio quelli corrispondenti alle occorrenze dell'unità lessicale "A", hanno come predecessori e successori anche unità lessicali non incluse nell'analisi (quadratini in bianco).

 

Differentemente, quando l'utilizzatore analizza un file esterno tutti gli eventi sono "coperti".

Per analizzare un file esterno, l'utilizzatore deve collocare un file Sequence.dat all'interno della cartella di lavoro; quindi, dopo aver aperto un corpus esistente, deve selezionare l'opzione Analisi delle Sequenze (modalità "user").

Il metodo di calcolo e gli output (grafici e tabelle) sono analoghi a quelli già descritti (vedi sopra).

Il file Sequence.dat, che può contenere ogni tipo di sequenze (ad es. nomi degli interlocutori di una conversazione, categorie ottenute mediante analisi di contenuto, nomi di eventi, etc.), deve essere costituito da "N" record (min. 50 max 10.000), ciascuno costituito da una label di max 50 caratteri, senza spazi bianchi e senza segni di punteggiatura.

I tipi di eventi (tags) non devono essere più di 250.

La struttura del file Sequence.dat è quindi quella di un semplice elenco (vedi esempi seguenti):

Hamlet
King
Hamlet
Queen
Hamlet
Queen
Hamlet
King
Queen
Hamlet
King
Hamlet
Horatio
Hamlet
Horatio
... ... ...


activist
food
genetic
conservative
activist
genetic
conservative
activist
commerce
conservative
activist
conservative
biology
society
activist
... ... ...


event_01
event_03
event_02
event_03
event_03
event_01
event_05
event_02
event_05
event_01
event_02
event_04
event_03
event_01
event_01
... ... ...

Sia nel caso delle sequenze concernenti le unità lessicali del corpus che nel caso delle sequenze registrate in un file esterno (Sequence.dat), T-LAB produce tre tabelle collocate all'interno della cartella MY-OUTPUT:
- T_Successors.xls, con le probabilità di transizione dei successori;
- T_Predecessors.xls con le probabilità di transizione dei predecessori;
- Frequency_Average_Order.xls, disponibile solo quando il corpus è costituito da testi brevi quali le risposte a domande aperte, con la frequenza e il rango medio di comparizione (o evocazione) di ogni parola;
- Adjacency_Matrix.xls (matrice di adiacenza), disponibile solo quando la lista delle unità lessicali include meno di 250 items,che può essere utilizzata dagli utenti esperti per generare misure e grafici tipici della Network Analysis.
La struttura della matrice di adiacenza è la seguente:
- in riga i successori (out-degree)
- in colonna i predecessori (in-degree).

Inoltre T-LAB consente di esportare file GraphML che possono essere editati mediante il software yEd (vedi sotto).