Modellizzazione dei Temi Emergenti
Questo
strumento T-LAB
consente di individuare, esaminare e modellare i principali
temi che emergono dai testi per poi utilizzarli in ulteriori analisi,
sia esse di tipo qualitativo (ad. es. per costruire griglie per l'analisi di
contenuto) o di tipo quantitativo.
I temi emergenti, che sono descritti tramite il loro vocabolario caratteristico,
cioè tramite insiemi di parole chiave (lemmi
o categorie) co-occorrenti all'interno delle unità di contesto esaminate,
possono essere infatti utilizzati per classificare quest'ultime (sia esse documenti
o contesti elementari) e ottenere nuove variabili da utilizzare in ulteriori
analisi T-LAB.
All'avvio dell'analisi, il solo parametro che l'utilizzatore è invitato
a determinare (vedi sotto) è il numero dei temi da ottenere; ciò
tenendo conto di due fatti:
- in questo caso, tanto più numerosi sono i temi tanto più consistenti
sono le relazioni di co-occorrenza al loro interno;
- alcuni temi (ad esempio quelli che sono ridondanti o difficili da interpretare)
possono essere eliminati successivamente tramite un'apposita funzionalità
dello strumento in esame.

La procedura
automatica di analisi effettua i seguenti passi:
a - costruzione di una matrice delle co-occorrenze (a seconda dei casi, documenti
x parole o contesti elementari x parole);
b - analisi dei dati tramite un modello probabilistico che usa la Latent Dirichlet
Allocation e il Gibbs Sampling (per ulteriori informazioni si vedano le corrispondenti
voci di Wikipedia: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation;
http://en.wikipedia.org/wiki/Gibbs_sampling;
c - descrizione di ogni tema mediante i valori di probabilità associati
alle sue parole caratteristiche, sia esse "specifiche" o "condivise"
da due o più temi.
Al termine del processo di analisi, l'utilizzatore può agevolmente effettuare le seguenti operazioni:
1 - esplorare, rinominare ed eliminare le caratteristiche di ogni singolo tema;
2 - rinominare o eliminare specifici temi;
3 - testare il modello mediante un Naïve Bayes Classifier che assegna i temi alle unità di contesto, sia esse documenti e/o contesti elementari;
4 - applicare il modello (quello testato nel punto precedente) ed esplorare le relazioni tra i temi utilizzando altri strumenti T-LAB.
Nel dettaglio:
1 - Esplorare, rinominare ed eliminare le caratteristiche
di ogni singolo tema

N.B.: In questo tipo di grafico (vedi sopra) "hight probability" indica una probabilità >=.75.

Con un click sulla label del tema (vedi sopra "A") possono essere visualizzate tabelle e grafici (vedi sopra "B"); inoltre, cliccando sulle parole delle tabelle (vedi sopra "C"), è possibile verificare la loro distribuzione all'interno dei vari temi ed - eventualmente - eliminarle.
Le chiavi
di lettura delle tabelle sono le seguenti:
IN THEME = occorrenze (tokens) di ogni parola all'interno del tema selezionato;
TOT = occorrenze (tokens) di ogni parola all'interno del corpus o del sottoinsieme
analizzato;
IN (%) = peso percentuale di ogni parola all'interno del tema selezionato;
(p) = valore di probabilità associato a ogni relazione parola x tema;
TYPE = contrassegnato con "specific" quando la parola (con p = 1)
appartiene solo al tema selezionato, e come "shared" negli altri casi
(cioè quando la parola, in diverso modo, è presente in più
di un tema).
Quando viene
selezionata l'opzione "risultati completi" (vedi sopra "B")
T-LAB
produce un file HTML con tutti i temi e i loro vocabolario caratteristico; inoltre
consente di esportare alcuni file XLS.

Quando viene selezionata l'opzione "shared words" (vedi sotto) è possibile esplorare la relativa tabella e produrre specifici grafici.

2 - Rinominare o eliminare specifici temi
Per rinominare o eliminare specifici temi è sufficiente selezionare gli
item corrispondenti (vedi sotto "A") e cliccare sul pulsante "rinominare/eliminare"
(vedi sotto "B").
Quando compare il box con le varie opzioni (vedi sotto), a seconda dei propri
obiettivi, l'utilizzatore può cambiare la label del tema (sia scegliendo
tra le parole disponibili che digitandone una nuova; vedi sotto "C")
oppure eliminare il tema selezionato con un click sull'apposito pulsante (vedi
sotto "D").

3 - Testare il modello
Al termine dell'analisi dei dati (vedi sopra i punti "a" e "b")
ogni unità di contesto (es. un documento o un contesto elementare) risulta
costituito da un una "mistura" di temi (o topics). Diversamente, il
Naïve Bayes Classifier applicato per testare/applicare il modello usa il
calcolo delle probabilità per associare ogni unità di contesto
al tema che più lo caratterizza. Ne risulta che, a questo punto, ogni
tema diventa di fatto un cluster di unità di contesto.
Per questa ragione, quando viene selezionata l'opzione "Testare il modello"
T-LAB
produce un file HTML e due file XLS (vedi sotto) che consentono all'utilizzatore
di verificare l'appartenenza di ogni unità di contesto a uno specifico
tema.




5 - Applicare il modello
Dopo aver applicato e salvato il modello (vedi sotto
"A), i risultati dell'analisi possono essere immediatamente visualizzati
tramite una mappa MDS.

Inoltre, poiché i temi sono archiviati da T-LAB come modalità di due nuove variabili che si riferiscono a cluster di contesti elementari (CONT_CLUST) e/o a cluster di documenti (DOC_CLUST), le relazioni tra gli stessi temi e/o tra le loro caratteristiche possono essere ulteriormente esplorati con diversi strumenti di analisi (vedi sotto).

Ad esempio, può essere effettuata un' Analisi delle Corrispondenze dei vari temi (vedi sotto)
si può realizzare una network map utilizzando lo strumento Sequenze di Temi (vedi sotto)

si possono produrre grafici radiali tramite lo strumento Associazioni di Parole e così via.
