T-LAB 10.2 - HELP ON-LINE - Strumenti per l'Analisi dei Testi

Nel caso di un unico testo (o di un corpus trattato come unico testo) T-LAB non richiede ulteriori accorgimenti: basta selezionare l'opzione 'Importare un singolo file…' (vedi sotto).

Quindi si richiedono quattro passaggi (vedi immagine seguente) : (1) selezionare un qualsiasi file; (2) scegliere il nome del progetto; (3) selezionare la lingua del testo; (4) cliccar su 'Importa' .

Successivamente compare una finestra di riepilogo (vedi immagini seguenti) in cui possono essere effettuate alcune scelte.

N.B.:
- Poiché i trattamenti preliminari determinano il tipo e la quantità delle unità di analisi (cioè quali e quante unità di contesto e quali e quante unità lessicali), scelte diverse in questa fase comportano risultati diversi delle successive analisi (vedi sotto opzioni avanzate). Per questa ragione, tutti gli output T-LAB mostrati nel manuale e nell'help hanno solo valore indicativo;
- Tutte le fasi di pre-processing vengono eseguite durante l'importazione di qualsiasi tipo di corpus.

1 - LEMMATIZZAZIONE AUTOMATICA O STEMMING

Di seguito la lista complete delle trenta (30) lingue per le quali T-LAB supporta la lemmatizzazione automatica o lo stemming.

LEMMATIZZAZIONE: catalano, croato, francese, inglese, italiano, latino, polacco, portoghese, rumeno, russo, serbo, slovacco, spagnolo, svedese, tedesco, ucraino;
STEMMING: arabo, bengali, bulgaro, ceco, danese, finlandese, greco, hindi, indonesiano, marathi, norvegese, olandese, persiano, turco, ungherese.

In ogni caso, senza lemmatizzazione automatica e/o usando dizionari personalizzati, possono essere analizzati testi in tutte le lingue le cui parole siano separate da spazi e/o da punteggiatura.

Il risultato del processo di lemmatizzazione può essere verificato tramite la funzione Vocabolario e può essere modificato tramite la funzione Personalizzazione del Dizionario.
Se l'utilizzatore intende analizzare testi di lingue diverse, si consiglia di selezionare l'opzione "other".

2 - SEGMENTAZIONE DEI TESTI IN CONTESTI ELEMENTARI

A seconda della scelta dell'utilizzatore, i contesti elementari per il calcolo delle co-occorrenze possono essere di quattro tipi: frasi, frammenti di lunghezza comparabile, paragrafi e testi brevi (es. risposte a domande aperte).
Il risultato del processo di segmentazione può essere verificato tramite il file corpus_segments.dat.

3 - VERIFICA DELLE PAROLE MULTIPLE (MULTI-WORDS)

L'opzione "Base" abilita l'uso automatico della lista multi-words di T-LAB.

Diversamente, l'opzione "Avanzata", abilitata solo in caso di lemmatizzazione automatica, consente di verificare e modificare la lista delle multi-words presenti nel corpus e non incluse nel dizionario T-LAB (vedi immagine seguente). Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file Multiwords.txt).

4 - VERIFICA DELLE PAROLE VUOTE (STOP-WORDS)

L'opzione "Base" abilita l'uso automatico della lista parole vuote di T-LAB.

Diversamente, l'opzione "Avanzata" consente di verificare e modificare la lista delle parole vuote presenti nel corpus.
Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file Stopwords.txt).

5 - SELEZIONE DELLE PAROLE CHIAVE

Le opzioni disponibili consentono di scegliere il metodo di selezione (TF-IDF o Chi-quadro) e il numero massimo di unità lessicali da includere nella lista usata da T-LAB per analizzare i testi con impostazioni automatiche.

N.B.: Al termine della fase di importazione, mediante le impostazioni personalizzate, l'utilizzatore può rivedere la selezione delle parole e costruire varie liste da applicare.