www.tlab.it

Modellizzazione dei Temi Emergenti


Questo strumento T-LAB consente di individuare, esaminare e modellare i principali temi che emergono dai testi per poi utilizzarli in ulteriori analisi, sia esse di tipo qualitativo (ad. es. per costruire griglie per l'analisi di contenuto) o di tipo quantitativo.

I temi emergenti, che sono descritti tramite il loro vocabolario caratteristico, cioè tramite insiemi di parole chiave (lemmi o categorie) co-occorrenti all'interno delle unità di contesto esaminate, possono essere infatti utilizzati per classificare quest'ultime (sia esse documenti o contesti elementari) e ottenere nuove variabili da utilizzare in ulteriori analisi T-LAB.


All'avvio dell'analisi, il solo parametro che l'utilizzatore è invitato a determinare (vedi sotto) è il numero dei temi da ottenere; ciò tenendo conto di due fatti:
- in questo caso, tanto più numerosi sono i temi tanto più consistenti sono le relazioni di co-occorrenza al loro interno;
- alcuni temi (ad esempio quelli che sono ridondanti o difficili da interpretare) possono essere eliminati successivamente tramite un'apposita funzionalità dello strumento in esame.

La procedura automatica di analisi effettua i seguenti passi:

a - costruzione di una matrice delle co-occorrenze (a seconda dei casi, documenti x parole o contesti elementari x parole);
b - analisi dei dati tramite un modello probabilistico che usa la Latent Dirichlet Allocation e il Gibbs Sampling (per ulteriori informazioni si vedano le corrispondenti voci di Wikipedia: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation; http://en.wikipedia.org/wiki/Gibbs_sampling;
c - descrizione di ogni tema mediante i valori di probabilità associati alle sue parole caratteristiche, sia esse "specifiche" o "condivise" da due o più temi.

Al termine del processo di analisi, l'utilizzatore può agevolmente effettuare le seguenti operazioni:

1 - esplorare, rinominare ed eliminare le caratteristiche di ogni singolo tema;

2 - rinominare o eliminare specifici temi;

3 - testare il modello mediante un Naïve Bayes Classifier che assegna i temi alle unità di contesto, sia esse documenti e/o contesti elementari;

4 - applicare il modello (quello testato nel punto precedente) ed esplorare le relazioni tra i temi utilizzando altri strumenti T-LAB.


Nel dettaglio:

1 - Esplorare, rinominare ed eliminare le caratteristiche di ogni singolo tema

N.B.: In questo tipo di grafico (vedi sopra) "hight probability" indica una probabilità >=.75.

Con un click sulla label del tema (vedi sopra "A") possono essere visualizzate tabelle e grafici (vedi sopra "B"); inoltre, cliccando sulle parole delle tabelle (vedi sopra "C"), è possibile verificare la loro distribuzione all'interno dei vari temi ed - eventualmente - eliminarle.

Le chiavi di lettura delle tabelle sono le seguenti:
IN THEME = occorrenze (tokens) di ogni parola all'interno del tema selezionato;
TOT = occorrenze (tokens) di ogni parola all'interno del corpus o del sottoinsieme analizzato;
IN (%) = peso percentuale di ogni parola all'interno del tema selezionato;
(p) = valore di probabilità associato a ogni relazione parola x tema;
TYPE = contrassegnato con "specific" quando la parola (con p = 1) appartiene solo al tema selezionato, e come "shared" negli altri casi (cioè quando la parola, in diverso modo, è presente in più di un tema).

Quando viene selezionata l'opzione "risultati completi" (vedi sopra "B") T-LAB produce un file HTML con tutti i temi e i loro vocabolario caratteristico; inoltre consente di esportare alcuni file XLS.

Quando viene selezionata l'opzione "shared words" (vedi sotto) è possibile esplorare la relativa tabella e produrre specifici grafici.


2 - Rinominare o eliminare specifici temi

Per rinominare o eliminare specifici temi è sufficiente selezionare gli item corrispondenti (vedi sotto "A") e cliccare sul pulsante "rinominare/eliminare" (vedi sotto "B").

Quando compare il box con le varie opzioni (vedi sotto), a seconda dei propri obiettivi, l'utilizzatore può cambiare la label del tema (sia scegliendo tra le parole disponibili che digitandone una nuova; vedi sotto "C") oppure eliminare il tema selezionato con un click sull'apposito pulsante (vedi sotto "D").



3 - Testare il modello

Al termine dell'analisi dei dati (vedi sopra i punti "a" e "b") ogni unità di contesto (es. un documento o un contesto elementare) risulta costituito da un una "mistura" di temi (o topics). Diversamente, il Naïve Bayes Classifier applicato per testare/applicare il modello usa il calcolo delle probabilità per associare ogni unità di contesto al tema che più lo caratterizza. Ne risulta che, a questo punto, ogni tema diventa di fatto un cluster di unità di contesto.
Per questa ragione, quando viene selezionata l'opzione "Testare il modello" T-LAB produce un file HTML e due file XLS (vedi sotto) che consentono all'utilizzatore di verificare l'appartenenza di ogni unità di contesto a uno specifico tema.


5 - Applicare il modello


Dopo aver applicato e salvato il modello (vedi sotto "A), i risultati dell'analisi possono essere immediatamente visualizzati tramite una mappa MDS.


Inoltre, poiché i temi sono archiviati da T-LAB come modalità di due nuove variabili che si riferiscono a cluster di contesti elementari (CONT_CLUST) e/o a cluster di documenti (DOC_CLUST), le relazioni tra gli stessi temi e/o tra le loro caratteristiche possono essere ulteriormente esplorati con diversi strumenti di analisi (vedi sotto).

Ad esempio, può essere effettuata un' Analisi delle Corrispondenze dei vari temi (vedi sotto)


si può realizzare una network map utilizzando lo strumento Sequenze di Temi (vedi sotto)


si possono produrre grafici radiali tramite lo strumento Associazioni di Parole e così via.