|
www.tlab.it
Nuovo Corpus
L'opzione Nuovo corpus avvia il processo
d'importazione, tramite il quale T-LAB
trasforma il file testo predisposto dall'utilizzatore in un insieme
di tabelle integrate nel database di sessione.
Le fasi principali di questo processo sono le
seguenti:
Per avviare il processo, in primo luogo bisogna
selezionare il file da importare (vedi immagine
seguente):
Successivamente compare una finestra di riepilogo
(vedi immagini seguenti) in cui possono essere effettuate alcune
scelte.
N.B.:
- Poiché i trattamenti preliminari determinano il tipo e la
quantità delle unità di analisi (cioè quali e quante unità di
contesto e quali e quante unità lessicali), scelte diverse in
questa fase comportano risultati diversi delle successive analisi
(vedi sotto opzioni avanzate). Per questa ragione, tutti gli output
T-LAB
mostrati nel manuale e nell'help hanno solo valore
indicativo.
1 - LEMMATIZZAZIONE AUTOMATICA
La lemmatizzazione automatica è abilitata
solo per la lingua in uso.
Il risultato del processo di lemmatizzazione può essere verificato
tramite la funzione Vocabolario e può
essere modificato tramite la funzione Personalizzazione del Dizionario.
Se l'utilizzatore intende analizzare testi di lingue diverse, si
consiglia di selezionare l'opzione "other".
2 - SEGMENTAZIONE DEI TESTI IN CONTESTI ELEMENTARI
A seconda della scelta dell'utilizzatore, i contesti elementari per il calcolo delle
co-occorrenze possono essere di quattro
tipi: frasi, frammenti di lunghezza comparabile, paragrafi e testi
brevi (es. risposte a domande aperte).
Il risultato del processo di segmentazione può essere verificato
tramite il file corpus_segments.dat.
3 - VERIFICA DELLE PAROLE MULTIPLE (MULTI-WORDS)
L'opzione "Base" abilita l'uso automatico
della lista multi-words di
T-LAB.
Diversamente, l'opzione "Avanzata", abilitata solo
in caso di lemmatizzazione automatica, consente di verificare e
modificare la lista delle multi-words presenti nel corpus e non
incluse nel dizionario T-LAB
(vedi immagine seguente). Inoltre è possibile importare e usare
altre liste predisposte
dall'utilizzatore (file Multiwords.txt).
4 - VERIFICA DELLE PAROLE VUOTE (STOP-WORDS)
L'opzione "Base" abilita l'uso automatico della lista parole vuote di T-LAB.
Diversamente, l'opzione "Avanzata" consente di
verificare e modificare la lista delle parole vuote presenti nel
corpus.
Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file
Stopwords.txt).
5 - SELEZIONE DELLE PAROLE CHIAVE
Le opzioni disponibili consentono di scegliere il metodo di
selezione (TF-IDF o Chi-quadro) e il numero massimo di unità lessicali
da includere nella lista usata da T-LAB per
analizzare i testi con impostazioni
automatiche.
|