Classificazione Tematica dei Documenti
Questa opzione viene attivata solo quando il corpus in analisi è costituito da almeno 20 documenti primari (Max 30.000).
Il suo uso consente di costruire cluster di documenti e di esplorare le loro caratteristiche attraverso operazioni/opzioni simili a quelle descritte nella sezione dell'help dedicata all'Analisi Tematica dei Contesti Elementari.
La sua specificità consiste nel fatto che la tabella analizzata è costituita da tante righe quanti sono i documenti del corpus, ciascuno dei quali è rappresentato come un vettore con valori che indicano le occorrenze delle parole in esso presenti.
Inoltre sono diversi i seguenti output:

I documenti appartenenti ad ogni cluster sono ordinati secondo il valore decrescente del loro score (vedi sotto) e possono essere esplorati nel formato HTML.
In questo caso il valore di rilevanza (score) assegnato ad ogni documento (i) del cluster (k) è ottenuto applicando la seguente formula:
![]()
Dove:
i - si riferisce al documento i;
k - si riferisce cluster k;
cos - è il simbolo di coseno;
di - è il vettore normalizzato del TFj,i IDFj, dove j
si riferisce a una parola del documento i
ck - è il vettore normalizzato del TFj,k IDFj, dove j si
riferisce una parola del cluster k
Usando gli score ottenuti dalla suddetta formula, T-LAB rende disponibile il file "Document_Membership_Degree.xls " (vedi sotto) che contiene i cluster a cui sono stati assegnati i vari documenti, sia mediante il metodo bisecting K-Means (appartenenza esclusiva di ogni documento a un cluster) che mediante il valore del TF-IDF (appartenenza "mista" - in formato percentuale - di ogni documento ai vari cluster).


All'uscita di questa funzione, alcuni messaggi ricordano che è possibile
esplorare i cluster ottenuti con altri strumenti T-LAB.
![]() |
![]() |
Scegliendo l'opzione "SALVA", la variabile < DOC_CLUST> (cluster di documenti) resta disponibile in tutte le successive analisi dello stesso corpus realizzate con altri strumenti T-LAB.