www.tlab.it

Contesto Elementare


Nella fase di importazione, T-LAB effettua una segmentazione del corpus in contesti elementari: ciò per facilitarne l'esplorazione da parte dell'utilizzatore e, soprattutto, per effettuare analisi che richiedono il calcolo delle co-occorrenze.

Ne risulta che, a seconda delle scelte dell'utilizzatore, i contesti elementari possono essere di quattro tipi:


1
- Frasi

Contesti elementari marcati dalla punteggiatura forte (.? ! ), con lunghezza minima di 50 caratteri (Max. 1000 caratteri).

 

2 - Frammenti

Contesti elementari di lunghezza comparabile costituiti da uno o più enunciati.

In questo caso, l'algoritmo di segmentazione rispetta le seguenti regole:

- considerare come contesto elementare ogni sequenza di parole interrotta dal "punto e capo" (ritorno di carrello) e le cui dimensioni siano inferiori 400 caratteri;

- nel caso in cui, entro la lunghezza massima, non sia presente alcun punto e a capo, cercare, nell'ordine, altri segni di punteggiatura (? ! ; : ,). Se non vengono trovati, segmentare in base a un criterio statistico, ma senza troncare le unità lessicali.



3 - Paragrafi

Contesti elementari marcati dalla punteggiatura forte (.? ! ) e dal ritorno di carrello, con lunghezza massima di 2000 caratteri.


4 - Testi Brevi

Questa opzione è abilitata solo quando il corpus è costituito da testi con dimensione massima di 2000 caratteri (es. risposte a domande aperte).

N.B.:

- il file corpus_segments.dat contiene il risultato della segmentazione del corpus;
- la funzione concordanze consente la verifica dei contesti elementari in cui ogni parola (forma grafica o lemma) è presente.