www.tlab.it

Classificazione Tematica dei Documenti


Questa opzione viene attivata solo quando il corpus in analisi è costituito da almeno 20 documenti primari (Max 30.000).

Il suo uso consente di costruire cluster di documenti e di esplorare le loro caratteristiche attraverso operazioni/opzioni simili a quelle descritte nella sezione dell'help dedicata all'Analisi Tematica dei Contesti Elementari.

La sua specificità consiste nel fatto che la tabella analizzata è costituita da tante righe quanti sono i documenti del corpus, ciascuno dei quali è rappresentato come un vettore con valori che indicano le occorrenze delle parole in esso presenti.

Inoltre sono diversi i seguenti output:

I documenti appartenenti ad ogni cluster sono ordinati secondo il valore decrescente del loro score (vedi sotto) e possono essere esplorati nel formato HTML.

In questo caso il valore di rilevanza (score) assegnato ad ogni documento (i) del cluster (k) è ottenuto applicando la seguente formula:

Dove:
i - si riferisce al documento i;
k - si riferisce cluster k;
cos - è il simbolo di coseno;
di - è il vettore normalizzato del TFj,i IDFj, dove j si riferisce a una parola del documento i
ck - è il vettore normalizzato del TFj,k IDFj, dove j si riferisce una parola del cluster k

Usando gli score ottenuti dalla suddetta formula, T-LAB rende disponibile il file "Document_Membership_Degree.xls " (vedi sotto) che contiene i cluster a cui sono stati assegnati i vari documenti, sia mediante il metodo bisecting K-Means (appartenenza esclusiva di ogni documento a un cluster) che mediante il valore del TF-IDF (appartenenza "mista" - in formato percentuale - di ogni documento ai vari cluster).



All'uscita di questa funzione, alcuni messaggi ricordano che è possibile esplorare i cluster ottenuti con altri strumenti T-LAB.

Scegliendo l'opzione "SALVA", la variabile < DOC_CLUST> (cluster di documenti) resta disponibile in tutte le successive analisi dello stesso corpus realizzate con altri strumenti T-LAB.