www.tlab.it

Personalizzazione del Dizionario


L'opzione Personalizzazione del Dizionario apre una finestra per eventuali interventi sul dizionario del corpus.

L'utilizzatore può ridenominare o raggruppare i lemmi disponibili; inoltre può esportare il dizionario costruito (anche per modificarlo) o importare un dizionario personalizzato (anche fornito da terze parti).

In ogni caso, dal momento in cui il dizionario viene modificato, le analisi successive (sullo stesso corpus) sono disponibili solo nella modalità impostazioni personalizzate.

Il punto di partenza è costituito da una tabella (il Dizionario del Corpus) che riporta le seguenti informazioni:

- corrispondenze forma/lemma;
- occorrenze di ogni forma nel corpus;
- alcune etichette che si riferiscono alla lemmatizzazione automatica (colonna "INF").

Prima di ogni intervento, selezionando una specifica forma (doppio click) e cliccando il pulsante contesti, è possibile verificare le concordanze che interessano (vedi sotto).

Gli interventi possibili, pur se diversi nelle loro intenzionalità (revisione delle lemmatizzazioni e/o applicazioni di griglie per l'analisi del contenuto), si traducono tutti in una riorganizzazione del database T-LAB e quindi in diverse tabelle per l'analisi dei dati.
Ne deriva che tutti gli interventi vanno effettuati sulle forme (lemmi o categorie) ritenute interessanti ai fini delle analisi successive. T-LAB, infatti, rende disponibile un'ulteriore funzione - Impostazioni Personalizzate - attraverso la quale gli utilizzatori possono decidere quali lemmi "tenere" e quali "mettere fuori".
Le due funzioni (Personalizzazione del Dizionario e Impostazioni Personalizzate) sono molto integrate tra loro e l'utente può agevolmente muoversi dall'una all'altra, anche per cambiare le proprie scelte.

In Personalizzazione del Dizionario sono previste due modalità di intervento:

- una del tipo "uno-per-uno" con modifiche dirette sulla colonna "LEMMA" (selezionare e digitare);

- una del tipo "a gruppi", con la possibilità di spostare le selezioni (doppio click) sul box a destra e, successivamente, di ridenominarle attraverso l'uso dell'opzione "sostituisci".

Nel secondo caso, la nuova label può essere definita utilizzando uno dei lemmi selezionati (click su un item presente nel box "rinomina raggruppa") o digitando nel box "nuova label".

Per l'importazione di un dizionario personalizzato si richiede che nella cartella del corpus in analisi risieda un file Dictio.diz o un file Dictionary.diz.
Entrambi possono essere costituiti da "n" righe, ciascuna con una coppia di stringhe separate dal carattere ";" .
In entrambi i casi,
la lunghezza massima di ogni stringa (parola, lemma o categoria) è di 50 caratteri e, al suo interno, non devono essere presenti né spazi vuoti (blank) né apostrofi.
Per ogni coppia, la prima stringa - quella a sinistra - indica la label (lemma o categoria) definita dall'utilizzatore, la seconda la parola (caso Dictio.diz) o il lemma (caso Dictionary.diz) corrispondente già presente nel dizionario T-LAB.

Ecco qualche esempio:

(File Dictio.diz) (File Dictionary.diz)

ACCOGLIERE;accogliamo
ACCOGLIERE;accogliate
ACCOGLIERE;accoglie
ACCOGLIERE;accoglie

 

------
PREPARARE;preparerà

PREPARARE;preparerai
PREPARARE;prepareranno

PREPARARE;preparerebbe

ACCOGLIENZA;accoglienza
ACCOGLIENZA;accogliere
ACCOGLIENZA;accogliente

------
PENSIERO_ASTRATTO;concettualizzare

PENSIERO_ASTRATTO;analisi
PENSIERO_ASTRATTO;analizzare

PENSIERO_ASTRATTO;interpretare

A seconda del tipo di file importato, i cambiamenti nel dizionario del corpus seguiranno una logica diversa (vedi sotto).

 

N.B.:
- Il pulsante con l'icona del dischetto consente di salvare un file
(Dictio.diz) pronto per essere ri-utilizzato, anche dopo essere stato modificato dall'utente;
- Usando l'opzione salva impostazioni (vedi Impostazioni Personalizzate), lo stesso corpus - senza bisogno di ulteriori importazioni - può essere analizzato con vari dizionari (fino a un massimo di 10);

- Utilizzando l'opzione corpus lemmatizzato è possibile esportare una copia del corpus (file .txt) in cui ogni forma è sostituita con il corrispondente lemma.