www.tlab.it

Occorrenze e Co-occorrenze


In analisi dei testi, queste due nozioni sono di fondamentale importanza.

Le occorrenze, infatti, quantità risultanti dal conteggio del numero di volte (frequenze) in cui una unità lessicale (LU, lexical unit) ricorre all'interno del corpus o di una unità di contesto (CU, context unit).

La loro distribuzione può essere rappresentata in tabelle di contingenza come quella seguente:


 

Le co-occorrenze sono quantità risultanti dal conteggio del numero di volte in cui due o più unità lessicali sono contemporaneamente presenti all'interno degli stessi contesti elementari (EC, elementary contexts).

La loro distribuzione può essere rappresentata in tabelle del tipo presenza/assenza come quella seguente:

 

Con una semplice trasformazione, le tabelle del tipo "A" (rettangolare) possono essere trasformate in tabelle del tipo "B" (quadrate e simmetriche) in cui per ogni coppia di unità lessicale è indicata la quantità delle loro co-occorrenze, cioè il totale di contesti elementari in cui sono contemporaneamente presenti.



In gran parte - in T-LAB - l'analisi dei testi si realizza attraverso lo studio delle relazioni tra occorrenze e tra co-occorrenze: ciò, sia attraverso particolari indici di associazione, sia attraverso l'uso di tecniche statistiche di tipo multidimensionale quali la cluster analysis e l'analisi delle corrispondenze.