T-LAB 10.2 - HELP ON-LINE - Strumenti per l'Analisi dei Testi

Questo strumento T-LAB tiene conto delle posizioni delle varie unità lessicali all'interno delle frasi e ci permette di rappresentare ed esplorare qualsiasi testo come una rete di relazioni.

Le varie opzioni disponibili possono essere utilizzate per scopi quali Co-Word Analysis, Analisi Tematiche e Disambiguazioni.

Infatti, dopo aver costruito duce matrici in cui sono registrate tutte le coppie di predecessori e successori, T-LAB calcola le probabilità di transizione (catene di markov) e fornisce vari output concernenti le parole target.

Inoltre, è possibile eseguire una cluster analysis ed esplorare le relazioni semantiche tra le parole sia all'interno dell'intera rete che all'interno di 'cluster tematici' (N.B.: In questo caso, l'algoritmo di clusterizzazione è costituito dal 'Louvain method' sviluppato da Blondel V.D., Guillame J.-L , Lambiotte R., Lefebre E., 2008. E, in T-LAB, la tabella input è costituita da links 'directed' e 'weighted').

Ciò significa, dopo aver eseguito questo tipo di analisi, l'utilizzatore può verificare le relazioni tra i nodi della rete (cioè le parole chiave) a diversi livelli: a) in relazioni del tipo uno-a-uno; b) all'interno di 'ego network'; c) all'interno delle 'comunità' acui appartengono; d) all'interno dell'intera rete costituita dal testo in analisi.

RELAZIONI DEL TIPO UNO-AD-UNO	EGO-NETWORK

COMUNITA'	INTERA RETE

Le informazioni su come utilizzare le varie opzioni di analisi sono organizzate in tre sezioni:

A - Esplorare le connessioni del tipo uno-a-uno e le "ego network";
B - Esplorare le 'comunità' (cioè i cluster tematici) e l'intera rete;
C - Alcuni dettagli tecnici.

N.B.: Per motivi editoriali, questa pagina include esempi di analisi tratti da un corpus i cui testi sono in lingua Inglese.

A - ESPLORARE LE CONNESSIONI DEL TIPO UNO-A-UNO E LE "EGO NETWORK"

Quando l'analisi automatica è terminata, sono disponibili diversi grafici e tabelle che consentono di verificare le relazioni e i dati concernenti le parole chiave selezionate (N.B.: A questo scopo è sufficiente un clic su un item delle tabelle o su un qualsiasi punto mostrato nei grafici).

Tutti i grafici possono essere personalizzati ed esportati in diversi formati (usare il pulsante destro del mouse).

In due dei grafici gli elementi più vicini a quelli selezionati sono quelli che hanno le probabilità più elevate di venire prima (predecessori) o dopo (successori) di essi.

PREDECESSORI	SUCCESSORI

Negli altri casi, la vicinanza tra i termini-chiave è rappresentata mediante i diversi spessori delle frecce che li connettono (vedi immagini seguenti).

Tutti i dati possono essere verificati tramite vari tipi di tabelle.

Nel dettaglio:

Le TABELLE INTERATTIVE mostrano le liste dei predecessori e dei successori associati con le parole chiave selezionate.

L'ordinamento è di tipo decrescente sui valori di probabilità ("PROB"). Ad esempio, nella tabella seguente, la probabilità che "camp" segua"refugee" è 0.067, ovvero pari al 6.7%.

L'opzione TRIADI consente di visualizzare alcune tabelle con sequenze di tre elementi in cui il lemma selezionato è in prima, seconda o terza posizione. Per ciascuna triade T-LAB riporta le corrispondenti occorrenze. (N.B.: All'interno delle triadi, le parole vuote non sono incluse).

La tabella TUTTI I LINK (vedi sotto), che è particolarmente utile per disambiguare i significati delle parole, contiene tutte le coppie di predecessori e successori, e anche le rispettive occorrenze.
Facendo clic su una riga di questa tabella, tutti i segmenti di testo (cioè contesti elementari) in cui i due membri di ciascuna coppia sono presenti allo stesso tempo (cioè co-occorrenze) verranno visualizzati in formato HTML sul lato destro della tabella.

La tabella RANGO DI APPARIZIONE, con la frequenza e l'ordine medio di apparizione (o evocazione) di ogni termine all'interno dei segmenti di testo, viene mostrata solo quando il corpus è costituito da brevi testi, ad esempio risposte a domande aperte.

In qualsiasi momento, facendo clic sull'opzione GRAPH MAKER, l'utente può creare diversi tipi di grafici utilizzando elenchi personalizzati di parole chiave (vedi sotto).

N.B.: Gli utenti esperti che sono interessati ad esportare file in diversi formati (e.g., dl .gml .vna .graphml) con i dati relativi a tutti i link, possono fare clic sul pulsante 'SELEZIONARE TUTTI GLI ITEMS'.

In qualsiasi momento, usando il tasto destro sulle tabelle con le parole chiave, è possibile accedere allo strumento Concordanze e verificare i contesti di occorrenza dei vari item (vedi immagine seguente).

B - ESPLORARE LE 'COMUNITÀ' (CIOÈ I CLUSTER TEMATICI) E L'INTERA RETE

Quando si effettua un'analisi cluster, vengono resi disponibili ulteriori grafici e tabelle che consentono di esplorare tutti i livelli interni alla rete analizzata (vedi sotto gli item contrassegnati con un piccolo rettangolo in colore blu).

Una prima tabella riassume le caratteristiche (cioè i termini chiave) della PARTIZIONE FINALE ottenuta dall'algoritmo di clusterizzazione.
In tale tabella, le caratteristiche di ciascun cluster tematico sono ordinate mediante il relativo valore TF-IDF (vedi sotto).
N.B.: Quando un cluster della partizione finale include solo due parole, di solito questo significa che un caso di multiword non è stato risolto durante la fase di pre-trattamento dei dati.

Facendo clic su una qualunque parola della tabella PARTIZIONE FINALE (così come della tabella TUTTE LE PARTIZIONI), un grafico dinamico del tipo TreeMap ci consente di verificare le 'comunità' a cui essa risulta appartenere (vedi sotto).

La MAPPA MDS e il grafico PERCENTUALI (vedi sotto) ci permettono di verificare il 'peso' di ciascun cluster, così come le relazioni tra i vari cluster all'interno della migliore partizione (vedi sotto).

A seconda del numero di parole chiave, due grafici in formato HTML ci permettono di verificare le loro relazioni sia all'interno dell'intera rete che all'interno del cluster a cui appartengono (vedi sotto).

DENDROGRAMMA RADIALE

NETWORK (FORCE-DIRECTED GRAPH)

Due altre tabelle ci forniscono ulteriori informazioni ottenute tramite la cluster analysis.

In particolare:

La tabella TUTTE LE PARTIZIONI consente di verificare come le parole chiave sono state raggruppate in ciascuna partizione della cluster analisi ((vedi immagine a seguire, dove i numeri nelle colonne partitioni si riferiscono ai vari cluster).
N.B.: Per impostazione predefinita, questa tabella viene presentata ordinata sulla prima partizione (cioè quella con il maggior numero di cluster), e ogni passaggio da un piccolo cluster all'altro è marcato evidenziando in verde la prima parola che ad esso appartiene.

La tabella PARTIZIONI INTERMEDIE consente di verificare come le parole-chiave sono state raggruppate all'interno di ogni partizione selezionata. E, di volta in volta, le parole caratteristiche di ogni cluster tematico sono ordinate per i valori decrescenti delle loro occorrenze (vedi sotto).

La tabella CONTESTI TIPICI consente di controllare i segmenti di testo che hanno il più alto punteggio di associazione con i vari cluster della migliore partizione. In questa tabella il "punteggio" si riferisce alla somiglianza (indice coseno) tra il vettore delle caratteristiche di ciascun cluster e il vettore in cui viene rappresentato ogni segmento di testo.

N.B. Il segmento di testo più significativo di ciascun cluster è evidenziato in giallo.

Come altri casi di analisi tematica, T-LAB permette di esportare il dizionario della migliore partizione che può essere utilizzato per ulteriori analisi.

C - ALCUNI DETTAGLI TECNICI

I tipi di sequenze che questo strumento T-LAB ci consente di analizzare sono le seguenti:

1- Sequenze di Parole-Chiave, i cui elementi sono unità lessicali (vale a dire parole o lemmi) presenti nel corpus o in un sottoinsieme di esso. In questo caso il numero massimo di 'nodi' (vale a dire i 'tipi' di unità lessicali) è 5.000;
N.B.: Quando viene applicata la lemmatizzazione automatica, 5.000 unità lessicali corrispondono a circa 12,000 parole.

2- Sequenze di Temi, i cui elementi sono unità di contesto (cioè contesti elementari) classificate da uno strumento T-LAB per l'analisi tematica.
N.B.: In questo caso, poiché la sequenza dei contesti elementari (frasi o paragrafi) caratterizza l'intera 'catena' (predecessori e successori) del corpus, T-LAB realizza una forma specifica di analisi del discorso, i cui nodi (vale a dire i 'temi') possono variare da un minimo 5 a un massimo di 5.

3 - Sequenze archiviate in un file Sequence.dat predisposto dall'utilizzatore (vedi relative spiegazioni alla fine di questa sezione). In questo caso il numero massimo di record è 50.000 e il numero di 'tipi' (ossia nodi) non deve superare 5.000.

Le informazioni seguenti sono fornite per aiutare l'utente a comprendere meglio i dati riportati nella tabella SOMMARIO.

Secondo la teoria dei grafi, i predecessori e i successori di ogni nodo (nel nostro caso, unità lessicali o temi) possono essere rappresentati con delle frecce (archi) in ingresso (in-degree = tipi di predecessori), o in uscita (out-degree = tipi di successori).

Ad esempio, nella tabella seguente"people" ha 412 tipi di successori e 449 tipi of predecessori.
E il valore centrality degree è pari a 0.243.

In base al loro rapporto (successori/predecessori), è possibile verificare la varietà semantica generata dal nodo in questione:

- se è maggiore di quanta ne riceve (ratio > 1), il nodo è definito "sorgente";
- se è tanta quanta ne riceve (ratio = 1), il nodo è definito "relais";
- se è minore di quanta ne riceve (ratio < 1), il nodo è definito "assorbente".

Nella stessa tabella, per ogni unità lessicale, la colonna "cover" (coverage) indica in che misura (percentuale) le sue occorrenze sono precedute o seguite da unità lessicali incluse nella lista definita dall'utilizzatore.

Quando le unità analizzate "coprono" la totalità di quelle presenti nel corpus, il valore di "cover" è uguale a 1; diversamente, è un valore inferiore.
Inoltre: quando il valore di "cover" è uguale a 1, anche la sommatoria delle probabilità (sia per i predecessori che per i successori) è uguale a 1; diversamente, è un valore inferiore.
In entrambi i casi, le percentuali "residue" sono determinate dal fatto che vi sono predecessori e successori non inclusi nell'analisi.

Si consideri ad esempio la sequenza rappresentata nell'immagine seguente. Essa è costituita da 39 eventi: di questi, solo 16 (le ipotetiche unità in analisi) sono "coperti" (quadratini in grigio). Ciò a causa del fatto che alcuni di essi, ad esempio quelli corrispondenti alle occorrenze dell'unità lessicale "A", hanno come predecessori e successori anche unità lessicali non incluse nell'analisi (quadratini in bianco).

Differentemente, quando l'utilizzatore analizza una sequenza di temi o un file esterno tutti gli eventi sono "coperti".

N.B.: Per analizzare un file esterno, l'utente deve preparare il corrispondente file 'Sequence.dat'; quindi, dopo aver aperto un progetto esistente, deve selezionare l' opzione "Sequenze registrate in un file Sequence.dat".

Il metodo di calcolo e gli output (grafici e tabelle) sono analoghi a quelli già descritti (vedi sopra).

Il file Sequence.dat, che può contenere ogni tipo di sequenze (ad es. nomi degli interlocutori di una conversazione, categorie ottenute mediante analisi di contenuto, nomi di eventi, etc.), deve essere costituito da "N" record (min. 50 max 50.000), ciascuno costituito da una label di max 50 caratteri, senza spazi bianchi e senza segni di punteggiatura.

I tipi di eventi (tags) non devono essere più di 5.000.

La struttura del file Sequence.dat è quindi quella di un semplice elenco (vedi esempi seguenti):

Hamlet
King
Hamlet
Queen
Hamlet
Queen
Hamlet
King
Queen
Hamlet
King
Hamlet
Horatio
Hamlet
Horatio
... ... ...

activist
food
genetic
conservative
activist
genetic
conservative
activist
commerce
conservative
activist
conservative
biology
society
activist
... ... ...

event_01
event_03
event_02
event_03
event_03
event_01
event_05
event_02
event_05
event_01
event_02
event_04
event_03
event_01
event_01
... ... ...

Sia nel caso delle sequenze concernenti le unità lessicali (o temi) del corpus che nel caso delle sequenze registrate in un file esterno (Sequence.dat), T-LAB produce alcune tabelle collocate all'interno della cartella MY-OUTPUT.