T-LAB 10.2 - HELP ON-LINE - Cluster Analysis

Insieme di tecniche statistiche il cui obiettivo è costituito dall'individuare raggruppamenti di oggetti che abbiano due caratteristiche complementari:

A) al loro interno, la massima somiglianza tra gli elementi che li costituiscono (gli oggetti appartenenti a ciascun cluster);
B ) tra di loro, la massima differenza.

Nel linguaggio della statistica, le caratteristiche "A" e "B" corrispondono rispettivamente alla varianza interna (within cluster variance) e a quella esterna (between cluster variance).

In generale, i metodi della Cluster Analysis vengono distinti in due tipi:

Hierarchical methods, i cui algoritmi ricostruiscono l'intera gerarchia degli oggetti in analisi (il cosiddetto "albero"), vuoi in senso ascendente, vuoi in senso discendente;

Partitioning methods, i cui algoritmi prevedono che l'utilizzatore abbia preventivamente definito il numero di cluster in cui l'insieme degli oggetti in analisi va diviso.

In T-LAB sono utilizzati algoritmi di entrambi i tipi.

In particolare:

la funzione Co-Word Analysis e Mappe Concettuali utilizza un metodo gerarchico;
la funzione Cluster Analysis consente di utizzare tre diversi metodi: due gerarchici e uno a partizioni;
le funzioni Analisi Tematica dei Contesti Elementari e Classificazione Tematica dei Documenti utilizzano un algoritmo del tipo bisecting K-means.

Alcune delle pubblicazioni citate in Bibliografia consentono di approfondire sia aspetti generali dei vari metodi (Bolasco S., 1999; Lebart L., A. Morineau, M. Piron, 1995), sia aspetti specifici concernenti Hdbscan (Campello R. J. G. B., Moulavi D., Zimek A. & Sander J. , 2015) e il metodo bisecting K-means (Steinbach, M., G. Karypis, V. Kumar, 2000; Savaresi S.M., D.L. Boley, 2001)