www.tlab.it

 
Esempi d'uso:
Il Codice da Vinci

(last update: March 15th, 2005; The version of T-LAB used was 4.2)

ATTENZIONE: Questo esempio è stato realizzato con una versione ormai obsoleta di T-LAB (4.2).
La versione più recente (T-LAB 7.0) include nuovi strumenti e nuove funzionalità grafiche. Clicca qui per saperne di più.

L'idea di questo esempio è nata da una conversazione tra l'autore di T-LAB e un lettore del noto bestseller di Dan Brown.
Il primo, senza aver letto il romanzo, era interessato a testare un algoritmo di clusterizzazione (vedi Classificazione Tematica dei Documenti).
Il secondo, lettore attento e appassionato, ha fornito preziose indicazioni per l'analisi.


Obiettivo comune: verificare se e come T-LAB era in grado di ricostruire una rappresentazione dei "contenuti".

Metodo:
- trasformazione del testo in un corpus suddiviso in 105 unità di contesto (o documenti primari), ciascuno corrispondente a un capitolo del romanzo;
- uso di T-LAB per la realizzazione di alcuni trattamenti linguistici. In particolare: a) "raggruppamento" dei vari nomi usati per identificare gli stessi personaggi ( Es. "Aringarosa" e "Vescovo Aringarosa", "Sophie" e "Sophie Neveu", "Collet" e "Tenente Collet", etc.); b) lemmatizzazione automatica;
- selezione, tramite un'apposita funzione T-LAB, di 1355 unità lessicali (parole, lemmi o lessie);
- uso di un algoritmo di clusterizzazione (noto come bisecting K-means) per analizzare una tabella 105 x 1355 (unità di contesto x unità lessicali);
- misura di "somiglianza" utilizzata: coefficiente del coseno.

Risultati:
- dopo varie verifiche (NB la funzione sperimentale di T-LAB consente di esplorare agevolmente soluzioni da 3 a 10 cluster) è stata scelta la partizione a quattro cluster. Le tabelle che seguono ne riassumono le "caratteristiche" (prime 35 parole tipiche di ciascun cluster, selezionate mediante il test del chi quadro).

Come si può rilevare, i cluster individuano quattro differenti aree tematiche, intese come sottoinsiemi di parole co-occorrenti all'interno delle unità di contesto (cioè dei 105 capitoli).
NB: Per il tipo di calcolo utilizzato (vedi), la stessa "parola" può essere presente in più di un cluster. Al contrario, ciascun capitolo - ovvero ciascuna riga della tabella analizzata - è presente solo in uno di essi. Ecco la loro ripartizione:

Tra i vari risultati, la funzione T-LAB consente di costruire una tabella "parole" x cluster (in questo caso 1355 righe x 4 colonne) e di rappresentarla mediante Analisi delle Corrispondenze. Quello che segue è uno dei grafici ottenuti.

NB:

- Lo stesso algoritmo, con le stesse modalità, è stato applicato al testo originale di Dan Brown (in lingua inglese). I risultati sono in gran parte sovrapponibili (link);
- La funzione T-LAB in fase di test consentirà di clusterizzare due tipi di unità di contesto: i documenti primari definiti dall'utilizzatore (es. articoli di giornale, pagine web, risposte a domande aperte, etc.) e i contesti elementari corrispondenti a delle frasi (o quasi-frasi). Nel primo caso, le righe conterranno valori di frequenza, nel secondo conterranno valori di presenza/assenza (1/0).

Quanto al Codice da Vinci, un'ulteriore funzione T-LAB (Associazioni di Parole) consente altri tipi di "giochi" (vedi sotto)

Per il download della demo clicca qui.