www.tlab.it

Classification Thématique des Documents


Cette option est activée uniquement lorsque le corpus analysé est formé d'au moins 20 documents primaires (30 000 maximum).

Son utilisation permet de construire des classes de documents et d'explorer leurs caractéristiques à l'aide d'opérations/options semblables à celles qui sont décrites dans la section de l'aide dédiée à l'Analyse Thématique des Contextes Elémentaires.

Sa spécificité consiste dans le fait que le tableau analysé est formé par un nombre de lignes égal à celui des documents du corpus, chacun desquels est représenté comme un vecteur de valeurs indiquant les occurrences des mots qu'il contient.

D'ailleurs les outputs suivants sont différents:

Les documents appartenants à chaque classe sont ordonnés par la valeur décroissante de leur importance et peuvent être explorés dans le format HTML.

Dans ce cas-ci la valeur d'importance (score) assignée à chaque document (i) de la classe (k) est obtenue en appliquant la formule suivante:

Où:
i - se réfère au document i;
k - se réfère à la classe k;
cos - est le symbole du cosinus;
di - est le vecteur normalisé du TFj, i IDFj, où j se réfère à un mot du document i ;
ck - est le vecteur normalisé du de TFj, k IDFj, où j se réfère à un mot de la classe k.

En employant les scores obtenus par la formule ci-dessus, qui sont transformés en pourcentages, T-LAB rend disponible le fichier "Document_Membership_Degree.xls " (voir ci-dessous) contenant les classes auxquelles les documents sont assignés, soit par le bisecting K-Means (appartenance exclusive de chaque document à un classe) soit par le TF-IDF(appartenance mélangée de chaque document aux différentes classes).



Lorsqu'on quitte cette fonction, des messages rappellent qu'il est possible d'explorer les classes obtenues avec d'autres outils T-LAB.

Si on choisit l'option "Sauvegarder", la variable < DOC_CLUST > (classes de documents) demeure disponible pour toutes les analyses suivantes du même corpus effectuées avec d'autres outils T-LAB.