T-LAB Home
T-LAB PLUS 2021 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Testi e Discorsi come Sistemi Dinamici
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Classificazione di Nuovi Documenti
Contesti Chiave di Parole Tematiche
Esportare Tabelle Personalizzate
Editor
Importare-Esportare una lista degli Identificativi
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Corpus e Sottoinsiemi


Corpus: collezione di uno o più testi selezionati per un lavoro di analisi.

Sottoinsieme: una parte del corpus definita tramite l'uso di variabili e modalità.

T-LAB consente - in modo automatico - di esplorare e di analizzare le relazioni tra le unità di analisi di tutto il corpus o di suoi sottoinsiemi.

Qualche esempio di corpus:

  • un singolo testo o documento che tratti un qualunque argomento;
  • un insieme di articoli tratti dalla stampa e che affrontano lo stesso argomento;

  • una o più interviste realizzate entro un progetto di ricerca;

  • uno o più libri dello stesso autore o che affrontano temi simili;

  • una mailing-list scaricata da internet;

  • un insieme di risposte a una "domanda aperta" di un questionario;

  • una o più trascrizioni di focus group.

Qualche esempio di sottoinsieme:

  • nel caso di un corpus costituito da articoli pubblicati in vari anni (es ANNO = variabile usata), tutti gli articoli di un determinato anno (es 2001 = modalità della variabile anno);
  • nel caso di risposte a domande aperte, tutte le risposte di una determinata categoria di persone (es FEM = modalità della variabile SESSO);
  • nel caso di un corpus suddiviso per aree tematiche (es TEMA = variabile), tutte le parti che si riferiscono allo stesso tema (es SCUOLA = modalità della variabile TEMA).

N.B.: Sottoinsiemi del corpus sono anche i "cluster tematici" di documenti o di contesti elementari ottenuti utilizzando i corrispondenti strumenti T-LAB.

Nel caso di un corpus costituito da più testi, perché questo sia un insieme utilmente analizzabile, si richiede che le sue parti abbiano due caratteristiche che li rendano comparabili:

a) una qualche omogeneità tematica e/o del contesto in cui sono stati prodotti, in modo da ottenere dati tra loro confrontabili;

b) un equilibrato rapporto tra le loro dimensioni, sia in termini di occorrenze sia in termini di Kbytes, per non incorrere in "anomalie" di tipo statistico.

 

Entro la logica di T-LAB, il corpus è un database organizzato in record e campi. Più precisamente, i record sono costituiti dalle entità archiviate (testi, frammenti di testi, parole) e i campi sono costituiti dalle caratteristiche utilizzate per classificare le varie entità (gli autori dei testi, i contesti di riferimento, i tipi di parole, etc.).

Vedi Preparazione del Corpus