Skip to content. | Skip to navigation

Personal tools
Log in
Sections
You are here: Home Tools CEA Corpus del Español Actual / The Corpus of Contemporary Spanish

Corpus del Español Actual / The Corpus of Contemporary Spanish

Español - English

 

Corpus del Español Actual (CEA)

Powered by CQPweb

Cómo citar este Corpus:
Carlos Subirats y Marc Ortega. 2012. Corpus del Español Actual <http://spanishfn.org/tools/cea/spanish>

 

Características

El Corpus del Español Actual (CEA) tiene 540 millones de palabras y está lematizado y etiquetado con información morfológica y/o categorial. El CEA está integrado por los siguientes textos:

 

La etiquetación del CEA se ha realizado con una aplicación que utiliza un diccionario electrónico del español de 635.000 formas, generadas automáticamente a partir de un diccionario de 86.000 lemas simples, como p. ej., unir, inmoralidad, allí, etc., y 26.000 lemas locutivos, como p. ej., muerte cerebral, carga de profundidad, de armas tomar, etc. (Subirats 1989, 1992, 1994a, 1994b,  Mogorrón 1994, Garrido 1999, Ríos 1999, Bobes 2000). La desambiguación de la etiquetación se ha llevado a cabo mediante un proceso de intersección de autómatas, que utiliza información léxica y sintáctica (Subirats 1998, Subirats y Ortega 2000, 2001, Ortega en preparación).

Búsquedas

CQPweb proporciona la interfaz gráfica de algunos de los componentes del IMS Open Corpus Workbench (CWB) --un conjunto de herramientas de código abierto que permiten realizar la gestión y consulta de grandes corpus-- y, especialmente, de su componente central, el Corpus Query Processor (CQP), que realiza las consultas en el corpus. Para familiarizarse con el uso de CQPweb, se puede consultar una breve descripción de la sintaxis de las expresiones regulares de CQP, así como ejemplos de búsquedas. Si se desea realizar búsquedas que incluyan información morfológica y/o categorial, es necesario consultar el etiquetario del CEA, el cual incluye las etiquetas categoriales y morfológicas que se han utilizado en su etiquetación.

CQPweb permite realizar búsquedas de palabras, lemas o construcciones (cf. el menú, en el que aparecen todas las funcionalidades de CQPweb). Las búsquedas de formas léxicas son las más sencillas, ya que basta con escribir dicha forma en la ventana correspondiente. Las búsquedas de lemas o construcciones requieren la utilización de expresiones regulares. Así p. ej., para buscar todas las formas léxicas asociadas al lema amar, es necesario utilizar la expresión regular (ER) [lemma="amar"], la cual permite extraer todas las oraciones en las que aparecen formas léxicas asociadas al lema amar. Para realizar búsquedas de construcciones más complejas, como p. ej., aquellas en las que aparece una forma verbal asociada al lema sorprender, seguida de la preposición a, seguida de una cadena que pueda tener de cero a cinco palabras, seguida de un verbo en infinitivo, habría que utilizar la ER [lemma="sorprender"] [word="a"] [] {0,5} [pos="V.*INF"]. CQPweb puede realizar cálculos de frecuencias dentro de una búsqueda y crear listas de colocaciones, lo que permite realizar análisis contextuales detallados. Los resultados de las búsquedas se pueden descargar localmente, ya sea con o sin su correspondiente etiquetación.

 

Financiación

Los diccionarios de lemas simples y locutivos, la generación de diccionarios de formas flexivas a partir de los diccionarios de lemas y los primeros programas de etiquetación léxica fueron realizados en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Barcelona (España) con financiación del Ministerio de Educación (CAICYT PB85-371 y CICYT PB87-780 y PB92-0635) y del Ministerio de Obras Públicas y Transportes (TIC90-403). El desarrollo de un generador de diccionarios en forma de transductores, la creación de un sistema integrado de lematización y etiquetación categorial y morfológica de unidades léxicas simples y locutivas, así como la realización de un analizador léxico y sintáctico mediante autómatas y transductores se llevaron a cabo con financiación del Ministerio de Educación (TIC96-0804 y TIC1999-0753).

Referencias