T-LAB 10.2 - AIDE EN LIGNE - Cluster Analysis

T-LAB 10.2 - AIDE EN LIGNE

T-LAB

Introduction

Ce que T-LAB fait et ce qu' il vous permet de faire

Conditions requises et performances

Préparation du Corpus

Préparation du Corpus

Critères Structuraux

Critères Formels

Fichier

Importer un unique fichier...

Préparer un Corpus (Corpus Builder)

Ouvrir un Project Existant

Configurations d'Analyse

Configurations Automatiques Personalisées

Personnalisation du Dictionnaire

Analyse des Co-occurrences

Associations de Mots

Analyse des Mots Associés et Cartes Conceptuelles

Comparaisons entre paires de Mots-Clés

Analyse des Séquences et Analyse des Réseaux

Co-occurrence Toolkit

Analyse Thématiques

Analyse Thématique des Contextes Élémentaires

Modélisation des Thèmes Émergents

Classification Thématique des Documents

Classification Basée sur ded Dictionnaires

Textes et Discours comme Systèmes Dynamiques

Analyses Comparatives

Analyse des Spécificités

Analyse des Correspondances

Analyse des Correspondances Multiples

Classification (Cluster Analysis)

Décomposition en Valeurs Singulières

Outils Lexique

Text Screening / Désambiguïsations

Vocabulaire du Corpus

Liste de Mots vides

Listes de Locutions

Segmentation de Mots

Autres Outils

Variable Manager

Recherche Avancée dans le Corpus

Classification des Nouveaux Documents

Contextes Clé de Mots Thématiques

Exporter des Tableaux Personnalisées

Importer-Exporter une liste des Identificateurs

Glossaire

Analyse des Correspondances

Chaînes de Markov

Classification (Cluster Analysis)

Contextes élémentaires

Corpus et Sous-ensembles

Désambiguïsation

Document Primaire

Index d'Association

Lexie et Lexicalization

Noyaux Thématiques

Occurrences et Cooccurrences

Polarités Factorielles

Seuil de Fréquence

Tableaux de Données

Unité d'Analyse

Unité de Contexte

Unité Lexicale

Variables et Modalités

www.tlab.it

Classification (Cluster Analysis)

Ensemble de techniques statistiques qui ont le but de détecter des groupes d'objets avec deux caractéristiques complémentaires:

A - l'homogénéité interne la plus élevée (à l'intérieur de chaque classe);

B - l'hétérogénéité externe la plus élevée (parmi les différentes classes).

Dans le langage de la statistique, ces caractéristiques correspondent respectivement à la variance interne (within cluster variance) et à celle externe (between cluster variance).

En général, il y a deux genres de classification:

méthodes hiérarchiques, dont les algorithmes reconstruisent la hiérarchie entière des objets sous l'analyse (le soi-disant "arbre"), soit dans un ordre ascendant (CAH) soit dans un ordre descendant (CDH);

méthodes de division, où l'utilisateur définit précédemment les nombres de classe dans lesquels l'ensemble des objets doit être partitionné.

Dans T-LAB des algorithmes des deux types sont utilisés.

En particulier:

la fonction Analyse des Mots Associés utilise une méthode hiérarchique;
la fonction Cluster Analysis permet d'utiliser trois méthodes différentes: deux hiérarchiques et une à partitions;
les fonctions Analyse Thématique des Contextes Élémentaires et Classification Thématique des Documents utilisent un algorithme du type bisecting K-means.

Certaines publications citées dans la Bibliographie permettent d'approfondir aussi bien les aspects généraux des diverses méthodes (Bolasco S., 1999; Lebart L., A. Morineau, M. Piron, 1995), que les aspects spécifiques concernant Hdbscan (Campello R. J. G. B., Moulavi D., Zimek A. & Sander J. , 2015) et la méthode bisecting K-means (Steinbach, M., G. Karypis, V. Kumar, 2000; Savaresi S.M., D.L. Boley, 2001).