www.tlab.it

Criteri Formali


Il file input per T-LAB deve essere in formato solo testo con estensione .txt.

Nel caso di un corpus costituito da unico testo, e comunque quando l'utilizzatore non fa ricorso all'uso di variabili, non sono richiesti altri tipi di interventi e si può passare direttamente alla fase di importazione.

Quando invece si fa uso di variabili, la preparazione del corpus richiede i seguenti accorgimenti.

Ogni testo o sottoinsieme di esso (le "parti" individuate dalle variabili) deve essere preceduto da una riga di codifica.

Ogni riga di codifica ha il seguente formato:

- Inizia con una stringa di quattro asterischi (****) seguita da uno spazio (blank). Da T-LAB questa stringa viene interpretata nel modo seguente: "qui inizia un testo o una unità di contesto definita dall'utilizzatore";

- Continua, con l'aggiunta di stringhe costituite da singoli asterischi ed etichette che individuano casi (IDnumber), variabili e rispettive modalità.

- Termina con un ritorno di carrello ("a capo").

Ecco qualche esempio.

La riga seguente introduce un testo (o parte del corpus) codificato con tre variabili - ETA (età), SES (sesso) e PROF (professione) - e relative modalità (ADUL, FEM, OPER)

**** *ETA_ADUL *SES_FEM *PROF_OPER

La riga seguente introduce un testo (o parte del corpus) codificato con le stesse variabili e con l'etichetta IDnumber

**** *IDnumber_0001 *ETA_ADUL *SES_FEM *PROF_OPER

La riga seguente introduce un testo (o parte del corpus) codificato con due variabili: ANNO, TEST (testata giornalistica)

**** *ANNO_98 *TEST_REPUB

In ogni riga di codifica, le norme T-LAB da rispettare sono le seguenti:
1) ogni etichetta (IDnumber, variabile o modalità) non deve essere intervallata da spazi vuoti;
2) ogni etichetta, sia nel caso delle variabili che delle modalità, non deve superare la lunghezza di 15 caratteri (min. 2);

3) ogni etichetta delle variabili va congiunta alla rispettiva modalità attraverso l'uso del trattino basso "_" (underscore);
4) tra una variabile e l'altra, cioè prima del successivo asterisco, va inserito uno spazio vuoto (blank);
5) per ogni parte del corpus, la riga di codifica deve includere tutte le variabili usate;
6) il numero massimo di variabili utilizzabili è 50, quello delle modalità (per ogni variabile) è di 150;

7) il numero massimo di IDnumber è fissato a 30.000;