|
Esempi d'uso:
Il Codice da Vinci (last update: March 15th, 2005; The version of T-LAB used was 4.2) |
| ATTENZIONE:
Questo esempio è stato realizzato con una
versione ormai obsoleta di T-LAB (4.2). La versione più recente (T-LAB 7.0) include nuovi strumenti e nuove funzionalità grafiche. Clicca qui per saperne di più. |
L'idea
di questo esempio è nata da una conversazione tra l'autore di T-LAB e
un lettore del noto bestseller di Dan Brown.
Il primo, senza aver letto il romanzo, era interessato a testare un algoritmo
di clusterizzazione (vedi Classificazione
Tematica dei Documenti).
Il secondo, lettore attento e appassionato, ha fornito preziose indicazioni
per l'analisi.
Obiettivo comune:
verificare se e come T-LAB era in grado di ricostruire una rappresentazione
dei "contenuti".
Metodo:
- trasformazione del testo in un corpus suddiviso in 105
unità di contesto (o documenti primari),
ciascuno corrispondente a un capitolo del romanzo;
- uso di T-LAB per la realizzazione di alcuni trattamenti linguistici. In particolare:
a) "raggruppamento" dei vari nomi usati per identificare gli stessi
personaggi ( Es. "Aringarosa" e "Vescovo Aringarosa", "Sophie"
e "Sophie Neveu", "Collet" e "Tenente Collet",
etc.); b) lemmatizzazione automatica;
- selezione, tramite un'apposita funzione T-LAB, di 1355
unità lessicali (parole, lemmi o lessie);
- uso di un algoritmo di clusterizzazione (noto come bisecting
K-means) per analizzare una tabella 105 x 1355 (unità di contesto
x unità lessicali);
- misura di "somiglianza" utilizzata: coefficiente
del coseno.
Risultati:
- dopo varie verifiche (NB la funzione sperimentale di T-LAB consente di esplorare
agevolmente soluzioni da 3 a 10 cluster) è stata scelta la partizione
a quattro cluster. Le tabelle che seguono ne riassumono le "caratteristiche"
(prime 35 parole tipiche di ciascun cluster, selezionate
mediante il test del chi quadro).
Come
si può rilevare, i cluster individuano quattro differenti aree tematiche,
intese come sottoinsiemi di parole co-occorrenti all'interno delle unità
di contesto (cioè dei 105 capitoli).
NB: Per
il tipo di calcolo utilizzato (vedi), la stessa "parola" può
essere presente in più di un cluster. Al contrario, ciascun capitolo
- ovvero ciascuna riga della tabella analizzata - è presente solo in
uno di essi. Ecco la loro ripartizione:

Tra i vari risultati, la funzione T-LAB consente di costruire una tabella "parole" x cluster (in questo caso 1355 righe x 4 colonne) e di rappresentarla mediante Analisi delle Corrispondenze. Quello che segue è uno dei grafici ottenuti.

NB:
-
Lo stesso algoritmo, con le stesse modalità, è stato applicato
al testo originale di Dan Brown (in lingua inglese). I risultati sono in gran
parte sovrapponibili (link);
- La funzione T-LAB in fase di test consentirà di clusterizzare due tipi
di unità di contesto: i documenti primari definiti
dall'utilizzatore (es. articoli di giornale, pagine web, risposte a domande
aperte, etc.) e i contesti elementari corrispondenti
a delle frasi (o quasi-frasi). Nel primo caso, le righe conterranno valori di
frequenza, nel secondo conterranno valori di presenza/assenza (1/0).
Quanto al Codice da Vinci, un'ulteriore funzione T-LAB (Associazioni di Parole) consente altri tipi di "giochi" (vedi sotto)

Per il download della demo clicca qui.