CBildua

From EmergiaWiki

Jump to: navigation, search

Consultoría realizada para Departamento de Cultura de Gobierno Vasco (noviembre 2007).

Se presenta una metodología de recolección de traducciones al euskera a gran escala para la creación de amplios corpus bilingües o plurilingües que sirvan dos fines principales: a) la disposición de materiales de referencia representativos para el estudio lingüístico; b) el entrenamiento automático de sistemas de procesamiento de euskera, en general, y de sistemas de traducción automática de euskera, en particular.

[edit] Introducción

En el terreno de las tecnologías lingüísticas en la última década se están alcanzando importantes avances propiciados por la aplicación de técnicas estadísticas sobre vastas masas de textos. Estas metodologías están favorecidas por la disponibilidad creciente de todo tipo de materiales lingüísticos en la red, particularmente en los idiomas mayoritarios, como el inglés, el árabe o el chino. En el caso concreto de la traducción automática (TA), en los últimos años se están consiguiendo importantes logros entre estas lenguas, que se caracterizan por ser lenguas tipológicamente distantes, mediante la aplicación de métodos estadísticos en el entrenamiento de los sistemas de TA.

Las lenguas minoritarias, como el caso del euskera, tienen a este respecto una importante desventaja. Por una lado la disponibilidad de textos traducidos en la red es muy inferior a las lenguas mayoritarias. Por otro, la distancia lingüística con las lenguas que estratégicamente serían prioritarias para acometer el desarrollo de la TA, es un obstáculo para la aplicación de otras estrategias, como las basadas en reglas, que tan buenos resultados están dando entre lenguas emparentadas (como el español-catalán, por ejemplo).

Por ello, la TA de calidad en el caso de pares como euskera-español o euskera-inglés pasa necesariamente por la disponibilidad de amplias masas de textos traducidos que sirvan para entrenar los sistemas basados en corpus.

Por otro lado, en ámbitos en los que la demanda de traducciones es muy alta, como la administración pública, las instituciones culturales, las educativas, etc. desde hace poco más de una década se viene utilizando una tecnología que agiliza considerablemente el rendimiento de los traductores humanos. Se trata de los gestores de memorias de traducción (SDL Trados, DVX o WordFast) que bien utilizados constituyen en sí mismos valiosas colecciones de textos de referencia, que debidamente recolectados, podrían constituirse en un estimable pilar del corpus general.

Pero el corpus general de traducciones en euskera debería poder disponer de la aportación colectiva y prácticamente unánime de los agentes implicados, y muy especialmente de los grupos editoriales así como de los medios de comunicación.

Existen en este sentido dos principales obstáculos: los derechos de autor y la reserva sobre la disposición pública de algunos contenidos.

En este documento se presenta una metodología de recolección de materiales lingüísticos que permite salvar las condiciones de propiedad intelectual, o de accesibilidad a los contenidos que los propietarios quieran establecer sin menoscabar los beneficios de exhaustividad en la recogida de los datos.

En primer lugar se recoge la lista de objetivos que la metodología pretende obtener. A continuación se exponen las tecnologías informáticas que permiten el logro de los objetivos. Tras ello se citan ejemplos de aplicación de dichas tecnologías. El informe se termina con una breve bibliografía de referencia.

Acceso al informe completo.

Personal tools