Corpus del Español Actual / The Corpus of Contemporary Spanish
Español - English
Corpus del Español Actual (CEA)
Powered by CQPweb
Cómo citar este Corpus:
Carlos Subirats y Marc Ortega. 2012. Corpus del Español Actual <http://spanishfn.org/tools/cea/spanish>
Características
El Corpus del Español Actual (CEA) tiene 540 millones de palabras y está lematizado y etiquetado con información morfológica y/o categorial. El CEA está integrado por los siguientes textos:
- la parte española del corpus paralelo español-inglés Europarl: European Parliament Proceedings Parallel Corpus v. 6 (1996-2010),
- el módulo en lengua española del Wikicorpus v. 1.0, que contiene una parte importante de la Wikipedia (2006), y
- la sección en español del MultiUN: Multilingual UN Parallel Text 2000-2009, un corpus integrado por resoluciones de la Organización de las Naciones Unidas (ONU).
La etiquetación del CEA se ha realizado con una aplicación que utiliza un diccionario electrónico del español de 635.000 formas, generadas automáticamente a partir de un diccionario de 86.000 lemas simples, como p. ej., unir, inmoralidad, allí, etc., y 26.000 lemas locutivos, como p. ej., muerte cerebral, carga de profundidad, de armas tomar, etc. (Subirats 1989, 1992, 1994a, 1994b, Mogorrón 1994, Garrido 1999, Ríos 1999, Bobes 2000). La desambiguación de la etiquetación se ha llevado a cabo mediante un proceso de intersección de autómatas, que utiliza información léxica y sintáctica (Subirats 1998, Subirats y Ortega 2000, 2001, Ortega en preparación).
Búsquedas
CQPweb proporciona la interfaz gráfica de algunos de los componentes del IMS Open Corpus Workbench (CWB) --un conjunto de herramientas de código abierto que permiten realizar la gestión y consulta de grandes corpus-- y, especialmente, de su componente central, el Corpus Query Processor (CQP), que realiza las consultas en el corpus. Para familiarizarse con el uso de CQPweb, se puede consultar una breve descripción de la sintaxis de las expresiones regulares de CQP, así como ejemplos de búsquedas. Si se desea realizar búsquedas que incluyan información morfológica y/o categorial, es necesario consultar el etiquetario del CEA, el cual incluye las etiquetas categoriales y morfológicas que se han utilizado en su etiquetación.
Financiación
Los diccionarios de lemas simples y locutivos, la generación de diccionarios de formas flexivas a partir de los diccionarios de lemas y los primeros programas de etiquetación léxica fueron realizados en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Barcelona (España) con financiación del Ministerio de Educación (CAICYT PB85-371 y CICYT PB87-780 y PB92-0635) y del Ministerio de Obras Públicas y Transportes (TIC90-403). El desarrollo de un generador de diccionarios en forma de transductores, la creación de un sistema integrado de lematización y etiquetación categorial y morfológica de unidades léxicas simples y locutivas, así como la realización de un analizador léxico y sintáctico mediante autómatas y transductores se llevaron a cabo con financiación del Ministerio de Educación (TIC96-0804 y TIC1999-0753).
Referencias
- Bobes, Eulàlia de. 2000. Gramática electrónica de las locuciones verbales. Documento electrónico no publicado, Laboratorio de Lingüística Informática, Universidad Autónoma de Barcelona.
- Garrido, Paloma. 1999. Estudio sintáctico del adverbio fijo en predicados comparativos. Estudios de Lingüística del Español 7
- Mogorrón, Pedro.1994. Estudio contrastivo de las frases 'ser/estar + Prep X’ en español y ‘être + Prep X' en francés. Tesis doctoral, Universidad de Valencia.
- Ortega, Marc. 2000. Transductores en el análisis léxico y sintáctico de un texto. Departamento de Informática y Laboratorio de Lingüística Informática, Universidad Autónoma de Barcelona.
- Ortega, Marc. (en preparación). Análisis léxico y sintáctico automáticos mediante máquinas de estados finitos, léxicos electrónicos y gramáticas regulares. Tesis doctoral, Laboratorio de Lingüística Informática, Universidad Autónoma de Barcelona.
- Ríos, Antonio. 1999. La transcripción fonética automática del Diccionario Electrónico de Formas Simples Flexivas del Español: un estudio fonológico en el léxico. Estudios de Lingüística del Español 4
- Subirats, Carlos. 1998. Automatic extraction of textual information in Spanish. Linguistic Design. Journal of Theoretical and Experimental Linguistics 1: 1-13.
- Subirats, Carlos. 1994a. Sistema de Diccionarios Electrónicos del Español. Actas del Congreso de la Lengua Española. Sevilla, 1992. Madrid: Instituto Cervantes, pp. 316-330.
- Subirats, Carlos. 1994b. La flexión nominal en el Diccionario Electrónico de Formas Compuestas del Español. Lingua Franca 1: 63-69.
- Subirats, Carlos. 1992. Verbal, nominal and adjectival inflection in the Electronic Dictionary of Simple Forms of Spanish. Lingvisticae Investigationes 16.2: 345-371.
- Subirats, Carlos. 1989. Verbal morphology in the Electronic Dictionary of Spanish. Lingvisticae Investigationes 13.1: 179-201.
- Subirats, Carlos; Ortega, Marc. 2001. Extracción automática de información de grandes corpus. En J. De Kock y C. Gómez, eds. La lingüística con corpus. Catorce aplicaciones sobre el español. Salamanca: Ediciones Universidad de Salamanca, pp. 155-175.
- Subirats, Carlos; Ortega, Marc. 2000. Tratamiento automático de la información textual en español mediante bases de información lingüística y transductores. Estudios de Lingüística del Español 10.