- Traducción automática estadística
-
La traducción automática estadística, a la cual a veces le llama Stat MT o SMT (del inglés Statistical Machine Translation), es un paradigma de traducción automática donde se generan traducciones en base a modelos estadísticos y de teoría de la información cuyos parámetros se obtienen del análisis de corpus de textos bilingües. El enfoque estadístico contrasta con los enfoques tradicionales como la traducción automática basada en reglas y la basada en ejemplos.
Contenido
Ventajas sobre otros métodos
Los beneficios de la traducción estadística sobre la traducción tradicional son:
- Un mejor uso de los recursos
- Hay mucho lenguaje natural en formato legible para máquinas.
- Generalmente, los sistemas SMT no están adaptados a ningún par específico de idiomas.
- Los sistemas de traducción basada en reglas requieren un desarrollo manual de reglas lingüísticas, lo que puede ser costoso, y que a menudo no se generaliza a otros idiomas.
- Traducciones más naturales
Las ideas que hay detrás de la traducción automática estadística vienen de la teoría de la información. Esencialmente, el documento se traduce en la probabilidad p(e | f) de que una cadena e de la lengua nativa (por ejemplo, inglés) sea la traducción de una cadena f en la lengua extranjera (por ejemplo, francés). Generalmente, estas probabilidades se calculan utilizando técnicas de estimación de parámetros.
El Teorema de Bayes se aplica a p(e | f), la probabilidad de que la cadena del idioma extranjero produzca la cadena nativa para conseguir , donde el modelo de traducción p(f | e) es la probabilidad de que la cadena nativa sea la traducción de la cadena extranjera, y el modelo de lengua p(e) es la probabilidad de ver aquella cadena nativa. Matemáticamente hablando, encontrar la mejor traducción se consigue escogiendo aquella que dé la probabilidad más alta:
- .
Para una implementación rigurosa de esto se tendría que realizar una búsqueda exhaustiva pasando por todas las cadenas de e * en la lengua nativa. Realizar la búsqueda eficazmente es el trabajo de un descodificador de traducción automática que utiliza la cadena extranjera, heurísticos y otros métodos para limitar el espacio de búsqueda y al mismo tiempo mantener una calidad aceptable. Este compromiso entre calidad y tiempo de traducción se puede encontrar también en los sistemas de reconocimiento de voz.
Como los sistemas de traducción no pueden almacenar todas las cadenas nativas y sus traducciones, un documento se traduce típicamente frase por frase, pero ni siquiera esto no es suficiente. Los modelos de idiomas son típicamente aproximados por modelos de n-gramas suavizados, y se han aplicado aproximaciones similares a los modelos de traducción, pero hay una complejidad adicional debido a las diferentes longitudes de frase y ordenación de palabras en las distintas lenguas.
Los modelos estadísticos de traducción estaban inicialmente basados en palabras (Modelos 1-5 de IBM), pero se hicieron avances significativos con la introducción de modelos basados en frases. El trabajo reciente ha incorporado sintaxis o estructuras casi sintácticas.
Breve historia
Las primeras ideas de traducción automática estadística fueron introducidas por Warren Weawer en 1949 (W. Weaver 1955), incluyendo las ideas de aplicar la teoría de la información de Claude Shannon. Su retorno a escena se produce en 1991, con el sistema CANDIDE, desarrollado por un grupo de investigadores del Thomas J. Watson Center de IBM en Nueva York (Brown et al. 1990). Tras el éxito logrado mediante técnicas estocásticas en el reconocimiento del habla, el grupo decidió probar suerte en la traducción. El enfoque se planteó desde el postulado de no usar información para el análisis y la generación que no fuera estadística. El experimento se realizó sobre el corpus Hansard de las Actas del Parlamento canadiense (unos tres millones de oraciones en inglés y francés). Primero se alinearon oraciones, grupos de palabras y palabras sueltas, para después calcular las probabilidades de que una palabra de una oración en una lengua se correspondiera con otras palabras en la traducción. Los resultados sorprendieron a los propios investigadores, ya que casi la mitad de las oraciones traducidas eran exactamente como las contenidas en el texto original o tenían el mismo sentido aunque con palabras distintas. El sistema no se llegó a comercializar, pero supuso un hito histórico en la reorientación de las investigaciones.
Entre las aportaciones más recientes cabe destacar la del grupo ISI de la University of Southern California, que desarrolla EGYPT, un paquete de software para construir sistemas basados en la estadística a partir de corpus bilingües.
Desde de 2006, la traducción estadística está siendo el paradigma de traducción automática más estudiado.
Funcionamiento
Traducción basada en palabras (Word-Based translation)
En la traducción basada de palabras los elementos traducidos son palabras. Típicamente, la cantidad de palabras en frases traducidas es diferente debido a las palabras compuestas, la morfología y las locuciones. La proporción de las longitudes de secuencias de palabras traducidas se llama fertilidad, que dice cuántas palabras extranjeras produce cada palabra nativa. La traducción basada en palabras sencillas no puede traducir pares de lenguas con tasas de fertilidad diferentes de uno. Para hacer que los sistemas de traducción basados de palabra gestionen, por ejemplo, tasas de fertilidad altas, el sistema podría ser capaz de trazar el mapa de una sola palabra a palabras múltiples, pero no viceversa.
Un ejemplo de un sistema de traducción basado de palabras es el paquete de GIZA++ disponible de forma gratuita, que incluye modelos de IBM.
Traducción basada en frases (Phrase-Based translation)
En la traducción basada en frases se han intentado reducir las restricciones producidas por la traducción basada de palabras traduciendo secuencias de palabras a secuencias de palabras, donde las longitudes de la frase nativa y la extranjera pueden ser diferentes.
A las secuencias de palabras se les suele llamar bloques o frases, pero típicamente no son frases lingüísticas sino frases encontradas en el corpus utilizando métodos estadísticos. Se ha demostrado que limitar las frases a frases lingüísticas reduce la calidad de traducción.
Retos
Los retos con los que la traducción automática estadística tiene que tratar incluyen:
Orden diferente de palabras
El orden de las palabras en las distintas lenguas no es el mismo. Se puede hacer un poco de clasificación nombrando el orden típico de sujeto (S), verbo (V) y objeto (O) en una frase y se puede hablar, por ejemplo, de lenguas SVO o VSO. Hay también diferencias adicionales, por ejemplo, en el orden en que se sitúan los modificadores de los sustantivos.
En el reconocimiento de la voz se pueden enlazar la señal del discurso y la representación textual en bloques ordenados. No siempre pasa lo mismo con el mismo texto en dos lenguas. Para la SMT el modelo de traducción es solamente capaz de traducir pequeñas secuencias de palabras y el orden de las palabras se tiene que tener en cuenta de algún modo. La solución típica han sido los modelos de reordenación, donde una distribución de cambios de lugar para cada elemento de traducción se aproxima a la alineación de bi-texto. Los cambios de lugar se pueden clasificar con la ayuda del modelo de la lengua y se pueden seleccionar los mejores.
Palabras fuera del vocabulario (OOV, del inglés out of vocabulary)
Los sistemas de SMT almacenan formas léxicas diferentes como símbolos separados sin ninguna relación entre ellas y las formas léxicas o frases que no estaban en los datos de formación no pueden ser traducidos. Las principales razones de que existan las palabras fuera de vocabulario son la limitación de datos de formación, los cambios de campo y la morfología.
Ejemplos
- http://translate.google.com/translate_t
- http://www.smart-project.eu/node/1
- http://www.statmt.org/wmt06/
Enlaces externos
- http://en.wikipedia.org/wiki/Statistical_machine_translation
- http://www.serv-inf.deusto.es/abaitua/konzeptu/ta/mt10h_es/ta10h-5es.htm
- http://elies.rediris.es/elies9/3-3-1.htm
Véase también
- Traducción asistida
- Lingüística
- Inteligencia artificial
- Traducción automática mediante lenguaje intermedio
- Traducción automática mediante transferencia
- Traducción automática basada en el contexto
- Un mejor uso de los recursos
Wikimedia foundation. 2010.