www.tlab.it

Vocabulario


Esta herramienta de T-LAB nos permite comprobar el Vocabulario del corpus y de sus subconjuntos.
Por otra parte se proporcionan algunas medidas de riqueza léxica.

La tabla Vocabulario es una lista que incluye todas las palabras distintas (es decir "word types"), la cantidad de sus ocurrencias (es decir "word tokens"), los lemas correspondientes y algunas categorías usadas por T-LAB (véase Glosario/Lematización).

El usuario puede seleccionar (véase la imagen siguiente) las unidades léxicas que pertenecen a cada categoría, consultar la tabla correspondiente y exportarla como archivo .xls.

Las medidas de riqueza léxica son cinco:

Type/Token ratio (TTR);
Root TTR (Guiraud, 1960), obtenida dividiendo el número de "types" por la raíz cuadrada del número de "tokens";
Corrected TTR (Carroll, 1964), obtenida dividiendo el número de "types" por la raíz cuadrada de dos veces el número de "tokens";
Log TTR (Herdan, 1960), obtenida dividiendo el logaritmo del número de "types" por el logaritmo del número de "tokens";
Hapax/Types ratio.

NOTA:
- Hapax (es decir Hapax Legomena) son las palabras que, en un corpus, ocurren solamente una vez; - cuando se analiza un subconjunto del corpus, todas las medidas de riqueza léxica no incluyen las palabras vacias (e.j. los artículos y las preposiciones).