www.tlab.it

Nuovo Corpus


L'opzione Nuovo corpus avvia il processo d'importazione, tramite il quale T-LAB trasforma il file testo predisposto dall'utilizzatore in un insieme di tabelle integrate nel database di sessione.

Le fasi principali di questo processo sono le seguenti:

Per avviare il processo, in primo luogo bisogna selezionare il file da importare (vedi immagine seguente):

Successivamente compare una finestra di riepilogo (vedi immagini seguenti) in cui possono essere effettuate alcune scelte.

N.B.:
- Poiché i trattamenti preliminari determinano il tipo e la quantità delle unità di analisi (cioè quali e quante unità di contesto e quali e quante unità lessicali), scelte diverse in questa fase comportano risultati diversi delle successive analisi (vedi sotto opzioni avanzate). Per questa ragione, tutti gli output T-LAB mostrati nel manuale e nell'help hanno solo valore indicativo.

1 - LEMMATIZZAZIONE AUTOMATICA

La lemmatizzazione automatica è abilitata solo per la lingua in uso.
Il risultato del processo di lemmatizzazione può essere verificato tramite la funzione Vocabolario e può essere modificato tramite la funzione Personalizzazione del Dizionario.
Se l'utilizzatore intende analizzare testi di lingue diverse, si consiglia di selezionare l'opzione "other".

2 - SEGMENTAZIONE DEI TESTI IN CONTESTI ELEMENTARI

A seconda della scelta dell'utilizzatore, i contesti elementari per il calcolo delle co-occorrenze possono essere di quattro tipi: frasi, frammenti di lunghezza comparabile, paragrafi e testi brevi (es. risposte a domande aperte).
Il risultato del processo di segmentazione può essere verificato tramite il file corpus_segments.dat.

3 - VERIFICA DELLE PAROLE MULTIPLE (MULTI-WORDS)

L'opzione "Base" abilita l'uso automatico della lista multi-words di T-LAB.

Diversamente, l'opzione "Avanzata", abilitata solo in caso di lemmatizzazione automatica, consente di verificare e modificare la lista delle multi-words presenti nel corpus e non incluse nel dizionario T-LAB (vedi immagine seguente). Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file Multiwords.txt).


4 - VERIFICA DELLE PAROLE VUOTE (STOP-WORDS)

L'opzione "Base" abilita l'uso automatico della lista parole vuote di T-LAB.

Diversamente, l'opzione "Avanzata" consente di verificare e modificare la lista delle parole vuote presenti nel corpus.
Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file Stopwords.txt).

 

5 - SELEZIONE DELLE PAROLE CHIAVE

Le opzioni disponibili consentono di scegliere il metodo di selezione (TF-IDF o Chi-quadro) e il numero massimo di unità lessicali da includere nella lista usata da T-LAB per analizzare i testi con impostazioni automatiche.