Criteri Formali
Il file input per T-LAB deve essere in formato solo testo con estensione .txt.
Nel caso di un corpus costituito da unico testo, e comunque quando l'utilizzatore non fa ricorso all'uso di variabili, non sono richiesti altri tipi di interventi e si può passare direttamente alla fase di importazione.
Quando invece si fa uso di variabili, la preparazione del corpus richiede i seguenti accorgimenti.
Ogni testo o sottoinsieme di esso (le "parti" individuate dalle variabili) deve essere preceduto da una riga di codifica.
Ogni riga di codifica ha il seguente formato:
- Inizia con una stringa di quattro asterischi (****) seguita da uno spazio (blank). Da T-LAB questa stringa viene interpretata nel modo seguente: "qui inizia un testo o una unità di contesto definita dall'utilizzatore";
- Continua, con l'aggiunta di stringhe costituite da singoli asterischi ed etichette che individuano casi (IDnumber), variabili e rispettive modalità.
- Termina con un ritorno di carrello ("a capo").
Ecco qualche esempio.
La riga seguente introduce un testo (o parte del corpus) codificato con tre variabili - ETA (età), SES (sesso) e PROF (professione) - e relative modalità (ADUL, FEM, OPER)
**** *ETA_ADUL *SES_FEM *PROF_OPER
La riga seguente introduce un testo (o parte del corpus) codificato con le stesse variabili e con l'etichetta IDnumber
**** *IDnumber_0001 *ETA_ADUL *SES_FEM *PROF_OPER
La riga seguente introduce un testo (o parte del corpus) codificato con due variabili: ANNO, TEST (testata giornalistica)
**** *ANNO_98 *TEST_REPUB
In
ogni riga di codifica, le norme T-LAB
da rispettare sono le seguenti:
1)
ogni etichetta (IDnumber, variabile o modalità)
non deve essere intervallata da spazi vuoti;
2) ogni etichetta, sia nel caso delle variabili che delle modalità, non
deve superare la lunghezza di 15 caratteri (min. 2);
3) ogni etichetta delle variabili va congiunta alla rispettiva modalità attraverso
l'uso del trattino basso "_" (underscore);
4) tra una variabile e l'altra, cioè prima del successivo asterisco, va inserito
uno spazio vuoto (blank);
5) per ogni parte del corpus, la riga di codifica deve includere tutte le variabili
usate;
6) il numero massimo di variabili utilizzabili è 50, quello delle modalità
(per ogni variabile) è di 150;
7)
il numero massimo di IDnumber è fissato a 30.000;