Europarl corpus
From Wikipedia, the free encyclopedia
El corpus Europarl es un corpus (conjunto de documentos) formado a partir de las actas del Parlamento Europeo desde 1996 hasta 2012. La primera publicación en 2001 incluía once lenguas oficiales de la Unión Europea (danés, neerlandés, inglés, finlandés, francés, alemán, griego, italiano, portugués, español y sueco).[1] Con la expansión política de la UE, se añadieron las lenguas oficiales de los diez nuevos Estados miembro al corpus. La última actualización (2012) tiene 60 millones de palabras por lengua. Sin embargo, las lenguas recién añadidas están ligeramente subrepresentadas porque los datos correspondientes solo están disponibles desde 2007. Esta última versión incluye 21 lenguas europeas: romances (francés, italiano, español, portugués y rumano), germánicas (inglés, neerlandés, alemán, danés y sueco), eslavas (búlgaro, checo, polaco, eslovaco y esloveno), fino-ugrias (finlandés, húngaro y estonio), bálticas (letón, lituano) y griega.
Los datos que componen el corpus se extrajeron del sitio web del Parlamento Europeo. Después, se adaptaron para la investigación lingüística. Después de la división de oraciones y tokenización, se alinearon entre idiomas con la ayuda de un algoritmo desarrollado por Gale y Church (1993).
Un grupo de investigadores, liderado por Philipp Koehn en la Universidad de Edimburgo, compilaron y ampliaron el corpus. Al principio se diseñó para la investigación en traducción automática estadística (SMT por sus siglas en inglés). Sin embargo, desde su primera publicación, se ha utilizado para fines diversos, como la desambiguación del sentido de las palabras. Europarl también está disponible para búsqueda a través de la herramienta de gestión de corpus Sketch Engine.[2]
Corpus Europarl y traducción automática estadística
En su artículo «Europarl: A Parallel Corpus for Statistical Machine Translation» , Koehn resume hasta qué punto el corpus Europarl es útil para la investigación en traducción automática estadística (STM) . Utiliza el corpus para desarrollar sistemas de traducción estadística que traducen cada idioma a cada uno de los otros diez idiomas del corpus, lo que da como resultado 110 sistemas. Esto permite a Koehn establecer sistemas de TAE para pares de idiomas poco comunes que no habían sido considerados previamente por los desarrolladores de TAE, como por ejemplo el finés-italiano.
Evaluación de la calidad
El corpus Europarl no solo se puede utilizar para desarrollar sistemas SMT, sino también para su evaluación. Al comparar la salida de los sistemas con los datos originales del corpus para el idioma de destino, se puede evaluar la adecuación de la traducción. Koehn utiliza la métrica BLEU de Papineni et al. (2002) para esto, que cuenta las coincidencias de las dos versiones comparadas —salida del SMT y datos del corpus— y calcula una puntuación en base a esto. Cuanto más similares sean las dos versiones, mayor será la puntuación y, por lo tanto, la calidad de la traducción. Los resultados reflejan que algunos sistemas SMT funcionan mejor que otros, por ejemplo, español-francés (40,2) en comparación con neerlandés-finlandés (10,3). Koehn afirma que la razón de esto es que los idiomas relacionados son más fáciles de traducir entre sí que los que no lo son.
Traducción inversa
Además, Koehn utiliza los sistemas SMT y los datos del corpus Europarl para investigar si la retrotraducción es un método adecuado para la evaluación de sistemas de traducción automática . Para cada idioma excepto el inglés, compara las puntuaciones BLEU para traducir ese idioma desde y hacia el inglés (por ejemplo, inglés > español, español > inglés) con las que se pueden obtener midiendo los datos originales en inglés con la salida obtenida por traducción del inglés a cada idioma y retrotraducción al inglés (por ejemplo, inglés > español > inglés). Los resultados indican que las puntuaciones para la retrotraducción son mucho más altas que las de la traducción unidireccional y, lo que es más importante, no se correlacionan en absoluto con las puntuaciones unidireccionales. Por ejemplo, las puntuaciones unidireccionales para inglés<>griego (27,2 y 23,2) son más bajas que las de inglés<>portugués (30,1 y 27,2). Sin embargo, la puntuación de retrotraducción de 56,5 para el griego es más alta que la del portugués, que obtiene 53,6. Koehn explica esto con el hecho de que los errores cometidos en el proceso de traducción podrían simplemente revertirse mediante la retrotraducción, lo que resulta en una alta coincidencia entre la entrada y la salida. Sin embargo, esto no permite sacar conclusiones sobre la calidad del texto en el idioma meta real. Por lo tanto, Koehn no considera la retrotraducción un método adecuado para la evaluación de los sistemas de traducción automática.