Traducción automática estadística

Traducción automática estadística

La traducción automática estadística, a la cual a veces le llama Stat MT o SMT (del inglés Statistical Machine Translation), es un paradigma de traducción automática donde se generan traducciones en base a modelos estadísticos y de teoría de la información cuyos parámetros se obtienen del análisis de corpus de textos bilingües. El enfoque estadístico contrasta con los enfoques tradicionales como la traducción automática basada en reglas y la basada en ejemplos.

Contenido

Ventajas sobre otros métodos

Los beneficios de la traducción estadística sobre la traducción tradicional son:

  • Un mejor uso de los recursos
    • Hay mucho lenguaje natural en formato legible para máquinas.
    • Generalmente, los sistemas SMT no están adaptados a ningún par específico de idiomas.
    • Los sistemas de traducción basada en reglas requieren un desarrollo manual de reglas lingüísticas, lo que puede ser costoso, y que a menudo no se generaliza a otros idiomas.
  • Traducciones más naturales

Las ideas que hay detrás de la traducción automática estadística vienen de la teoría de la información. Esencialmente, el documento se traduce en la probabilidad p(e | f) de que una cadena e de la lengua nativa (por ejemplo, inglés) sea la traducción de una cadena f en la lengua extranjera (por ejemplo, francés). Generalmente, estas probabilidades se calculan utilizando técnicas de estimación de parámetros.

El Teorema de Bayes se aplica a p(e | f), la probabilidad de que la cadena del idioma extranjero produzca la cadena nativa para conseguir p(e|f) \propto p(f|e) p(e), donde el modelo de traducción p(f | e) es la probabilidad de que la cadena nativa sea la traducción de la cadena extranjera, y el modelo de lengua p(e) es la probabilidad de ver aquella cadena nativa. Matemáticamente hablando, encontrar la mejor traducción \tilde{e} se consigue escogiendo aquella que dé la probabilidad más alta:

 \tilde{e} = arg \max_{e \in e^*} p(e|f) = arg \max_{e\in e^*} p(f|e) p(e) .

Para una implementación rigurosa de esto se tendría que realizar una búsqueda exhaustiva pasando por todas las cadenas de e * en la lengua nativa. Realizar la búsqueda eficazmente es el trabajo de un descodificador de traducción automática que utiliza la cadena extranjera, heurísticos y otros métodos para limitar el espacio de búsqueda y al mismo tiempo mantener una calidad aceptable. Este compromiso entre calidad y tiempo de traducción se puede encontrar también en los sistemas de reconocimiento de voz.

Como los sistemas de traducción no pueden almacenar todas las cadenas nativas y sus traducciones, un documento se traduce típicamente frase por frase, pero ni siquiera esto no es suficiente. Los modelos de idiomas son típicamente aproximados por modelos de n-gramas suavizados, y se han aplicado aproximaciones similares a los modelos de traducción, pero hay una complejidad adicional debido a las diferentes longitudes de frase y ordenación de palabras en las distintas lenguas.

Los modelos estadísticos de traducción estaban inicialmente basados en palabras (Modelos 1-5 de IBM), pero se hicieron avances significativos con la introducción de modelos basados en frases. El trabajo reciente ha incorporado sintaxis o estructuras casi sintácticas.

Breve historia

Las primeras ideas de traducción automática estadística fueron introducidas por Warren Weawer en 1949 (W. Weaver 1955), incluyendo las ideas de aplicar la teoría de la información de Claude Shannon. Su retorno a escena se produce en 1991, con el sistema CANDIDE, desarrollado por un grupo de investigadores del Thomas J. Watson Center de IBM en Nueva York (Brown et al. 1990). Tras el éxito logrado mediante técnicas estocásticas en el reconocimiento del habla, el grupo decidió probar suerte en la traducción. El enfoque se planteó desde el postulado de no usar información para el análisis y la generación que no fuera estadística. El experimento se realizó sobre el corpus Hansard de las Actas del Parlamento canadiense (unos tres millones de oraciones en inglés y francés). Primero se alinearon oraciones, grupos de palabras y palabras sueltas, para después calcular las probabilidades de que una palabra de una oración en una lengua se correspondiera con otras palabras en la traducción. Los resultados sorprendieron a los propios investigadores, ya que casi la mitad de las oraciones traducidas eran exactamente como las contenidas en el texto original o tenían el mismo sentido aunque con palabras distintas. El sistema no se llegó a comercializar, pero supuso un hito histórico en la reorientación de las investigaciones.

Entre las aportaciones más recientes cabe destacar la del grupo ISI de la University of Southern California, que desarrolla EGYPT, un paquete de software para construir sistemas basados en la estadística a partir de corpus bilingües.

Desde de 2006, la traducción estadística está siendo el paradigma de traducción automática más estudiado.

Funcionamiento

Traducción basada en palabras (Word-Based translation)

En la traducción basada de palabras los elementos traducidos son palabras. Típicamente, la cantidad de palabras en frases traducidas es diferente debido a las palabras compuestas, la morfología y las locuciones. La proporción de las longitudes de secuencias de palabras traducidas se llama fertilidad, que dice cuántas palabras extranjeras produce cada palabra nativa. La traducción basada en palabras sencillas no puede traducir pares de lenguas con tasas de fertilidad diferentes de uno. Para hacer que los sistemas de traducción basados de palabra gestionen, por ejemplo, tasas de fertilidad altas, el sistema podría ser capaz de trazar el mapa de una sola palabra a palabras múltiples, pero no viceversa.

Un ejemplo de un sistema de traducción basado de palabras es el paquete de GIZA++ disponible de forma gratuita, que incluye modelos de IBM.

Traducción basada en frases (Phrase-Based translation)

En la traducción basada en frases se han intentado reducir las restricciones producidas por la traducción basada de palabras traduciendo secuencias de palabras a secuencias de palabras, donde las longitudes de la frase nativa y la extranjera pueden ser diferentes.

A las secuencias de palabras se les suele llamar bloques o frases, pero típicamente no son frases lingüísticas sino frases encontradas en el corpus utilizando métodos estadísticos. Se ha demostrado que limitar las frases a frases lingüísticas reduce la calidad de traducción.

Retos

Los retos con los que la traducción automática estadística tiene que tratar incluyen:

Orden diferente de palabras

El orden de las palabras en las distintas lenguas no es el mismo. Se puede hacer un poco de clasificación nombrando el orden típico de sujeto (S), verbo (V) y objeto (O) en una frase y se puede hablar, por ejemplo, de lenguas SVO o VSO. Hay también diferencias adicionales, por ejemplo, en el orden en que se sitúan los modificadores de los sustantivos.

En el reconocimiento de la voz se pueden enlazar la señal del discurso y la representación textual en bloques ordenados. No siempre pasa lo mismo con el mismo texto en dos lenguas. Para la SMT el modelo de traducción es solamente capaz de traducir pequeñas secuencias de palabras y el orden de las palabras se tiene que tener en cuenta de algún modo. La solución típica han sido los modelos de reordenación, donde una distribución de cambios de lugar para cada elemento de traducción se aproxima a la alineación de bi-texto. Los cambios de lugar se pueden clasificar con la ayuda del modelo de la lengua y se pueden seleccionar los mejores.

Palabras fuera del vocabulario (OOV, del inglés out of vocabulary)

Los sistemas de SMT almacenan formas léxicas diferentes como símbolos separados sin ninguna relación entre ellas y las formas léxicas o frases que no estaban en los datos de formación no pueden ser traducidos. Las principales razones de que existan las palabras fuera de vocabulario son la limitación de datos de formación, los cambios de campo y la morfología.

Ejemplos

Enlaces externos

Véase también


Wikimedia foundation. 2010.

Игры ⚽ Поможем сделать НИР

Mira otros diccionarios:

  • Traducción automática basada en el contexto — o Context Based Machine Translation (CMBT) és una técnica de traducción automática desarrollada por la empresa Meaningful Machines. Hasta hace poco el mundo de la traducción automática se ha desarrollado en dos vías principales: las basadas en… …   Wikipedia Español

  • Traducción automática — Se ha sugerido que Servicios de traducción automática sea fusionado en este artículo o sección (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. La traducción automática (TA), también llamada MT… …   Wikipedia Español

  • Traducción automática mediante lengua intermedia — La traducción automática mediante lengua intermedia es una de las estrategias clásicas de traducción automática. La idea básica de este método indirecto de traducción es representar el texto inicial en una lengua intermedia abstracta e… …   Wikipedia Español

  • Traducción automática mediante transferencia — La traducción por transferencia es un tipo de traducción automática. Se fundamenta sobre las bases de interlingua, y es actualmente uno de los métodos de traducción automática más ampliamente utilizados. Contenido 1 Visión General 2… …   Wikipedia Español

  • Métodos de evaluación para la traducción automática — Contenido 1 Introducción 2 Métodos objetivos 3 Métodos subjetivos 4 Véase también Introducción U …   Wikipedia Español

  • Servicios de traducción automática — Se ha sugerido que este artículo o sección sea fusionado en Traducción automática (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. Existen numerosas herramientas de traducción automática en la… …   Wikipedia Español

  • Traducción inmediata — es un término que se determinó como una característica de la traducción correcta de textos en varios idiomas simultáneamente. A este tipo de traducción automática, con postedición para revisar los errores del sistema, la denominamos Traducción… …   Wikipedia Español

  • Primera década de la traducción automática — Los primeros desarrollos informáticos reseñables se realizaron en el famoso ordenador ENIAC en 1946. Entre los investigadores pioneros hay que citar a Warren Weaver, de la Fundación Rockefeller. Él fue quien dio a conocer públicamente la… …   Enciclopedia Universal

  • Máquina de traducción estadística — Se ha sugerido que este artículo o sección sea fusionado con Traducción automática estadística (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. Máquina de traducción estadística (SMT) es un… …   Wikipedia Español

  • Google Translate — Traductor Google Traductor Google Información general URL http://translate.google.es/ Tipo de sitio Traducci …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”