- Máquina de traducción estadística
-
Máquina de traducción estadística (SMT) es un paradigma de máquina de traducción donde las traducciones se generan sobre la base de modelos estadísticos cuyos parámetros se obtienen del análisis lingüístico de corpus bilingües. El enfoque estadístico contrasta con los enfoques de traducción automática basada en reglas, así como con traducción automática en base a ejemplos.
Las primeras ideas de la traducción automática estadística fueron introducidas por Warren Weaver en 1949 Tejedor,[1] incluyendo las ideas de la aplicación de la teoría de la información de Claude Shannon. La traducción automática estadística fue reintroducida en 1991 por investigadores de la Thomas J. Watson Research Center de IBM[2] y ha contribuido al resurgimiento significativo del interés por la traducción automática en los últimos años. Hoy en día es, con mucho, el método de traducción automática más estudiado.
Contenido
Bases
La idea detrás de la traducción automática estadística proviene de teoría de la información. Un documento es traducido de acuerdo a la distribución de probabilidad p(e | f) que una cadena de e en el idioma de destino (por ejemplo, Inglés) es la traducción de una cadena de f en el idioma de origen (por ejemplo, francés).
El problema de la modelización de la distribución de probabilidad p(e | f) ha sido abordada de diversas maneras. Un enfoque intuitivo es aplicar el Teorema de Bayes, es decir , cuando el modelo de traducción p(f | e) es la probabilidad de que la cadena de origen es la traducción de la cadena de destino, y el modelo de idioma p(e) es la probabilidad de que la secuencia pertenezca a la lengua de destino. Esta descomposición es atractiva, ya que se divide el problema en dos subproblemas. Encontrar la mejor traducción se hace tomando el que da la probabilidad más alta: .
Para una aplicación rigurosa de éste se tendría que realizar una búsqueda exhaustiva por pasar por todas las cadenas e * en el idioma nativo. Realizar la búsqueda eficiente es el trabajo de una máquina de decodificación de traducción, que utiliza la cadena extranjera, heurísticas y otros métodos para limitar el espacio de búsqueda y, al mismo tiempo, mantener una calidad aceptable. Este compromiso entre calidad y tiempo de uso también se puede encontrar en la técnica de reconocimiento de voz.
Como los sistemas de traducción no son capaces de almacenar todas las cadenas nativas y sus traducciones, un documento se traduce típicamente frase por frase, pero ni siquiera esto es suficiente. Los modelos de lenguaje suelen aproximarse por modelos de alisado de n-grama y los enfoques similares se han aplicado a los modelos de traducción, pero existe una complejidad adicional debido a la longitud de frase y de diferentes órdenes de palabras en los idiomas.
Los modelos de traducción estadística estuvieron inicialmente basados en palabras, (Modelos 1-5 de IBM Ocultos de Markov Model de Stephan Vogel[3] y el Modelo 6 de Franz-Joseph Och[4] ), pero se lograron avances significativos con la introducción de frases, basada en modelos.[5] Un trabajo reciente ha incorporado sintaxis o estructuras cuasi-sintáctica.[6]
Beneficios
Los beneficios más citados de la traducción automática estadística sobre los paradigmas tradicionales son:
- Una mejor utilización de los recursos
- Hay una gran cantidad de lenguaje natural en formato legible por máquina.
- En general, los sistemas de SMT no se adaptan a cualquier par de lenguas específicas.
- Artículo sistemas de traducción basada en exigir el desarrollo manual de reglas lingüísticas, que pueden ser muy costosos y que a menudo no pueden generalizarse a otros idiomas.
- traducciones más naturales
La traducción basada en palabras
En la traducción basads en [[palabra]s], la unidad esencial de la traducción es una palabra de una lengua natural. Normalmente, el número de palabras en frases traducidas son diferentes, por palabras compuestas, morfología y modismos. La relación de la longitud de las secuencias de palabras traducidas se llama fecundidad, que indica el número de palabras extranjeras que cada palabra nativa produce. Necesariamente se asume la teoría de la información, que nos dice que cada uno cubre el mismo concepto. En la práctica esto no es realmente verdad. Por ejemplo, la palabra inglesa corner puede ser traducida en español por rincón o bien por esquina, dependiendo de si es en el sentido de su ángulo interno o externo.
La traducción simple basada en palabras no se puede traducir entre lenguas de diferente origen. Sistemas de traducción basados en palabras relativamente simples pueden ser hechos para hacer frente a altas tasas de fecundidad, pero podrían asignar una sola palabra a varias palabras, pero no al revés[cita requerida]. Por ejemplo, si quisiéramos traducir del francés al Inglés, cada palabra en Inglés podría producir cualquier cantidad de palabras francesas, y no al reves. No hay forma de agrupar dos palabras en Inglés para producir una sola palabra francesa.
Un ejemplo de un sistema de traducción basado en la palabra es el paquete de distribución libre GIZA++ (actualmente de licencia GPL), que incluye el programa de entrenamiento para modelos de IBM y los modelos HMM y 6.[4]
La traducción basada en la palabra no se usa ampliamente hoy en día, los sistemas basados en frases son más comunes. La mayor parte de sistemas basados en la frase siguen utilizando GIZA + + para alinear el corpus. Los alineamientos se utilizan para extraer frases o deducir reglas de sintaxis.[7] Y las palabras que coinciden en la bi-texto sigue siendo un problema discutido activamente en la comunidad. Debido al predominio de GIZA++, ahora hay varias implementaciones de distribución en línea.[8]
La traducción basada en Frases
En la traducción basada en Frases, el objetivo es reducir las restricciones de la traducción basada en palabras, traduciendo secuencias enteras de palabras, donde las longitudes pueden ser diferentes. Las secuencias de palabras se llaman bloques o frases, pero normalmente no son [frase]s lingüísticas, sino frases que se encuentran utilizando métodos estadísticos a partir de un corpus. Se ha demostrado que la restricción de las frases a frases lingüísticas (sintácticamente motivada grupos de palabras, ver categorías sintácticas) disminuye la calidad de la traducción[9]
Idiomas
Dependiendo de los cuerpos utilizados,algunos modismos no puede traducir "idiomáticamente". Por ejemplo, con Canadá como el corpus Hansard bilingüe, "escuchar" casi siempre puede ser traducida como "¡Bravo!" ya que en el Parlamento "Oye, ¡Escúchalo!" se convierte en "¡Bravo!". [10]
Morfología
Orden diferentes de las palabras
El orden de las palabras difiere de lengua a lengua. Una clasificación se puede hacer al nombrar el orden típico de los sujetos (S), verbo (V) y objeto (O) en una oración y se puede hablar, por ejemplo, de SVO o las lenguas VSO. También hay diferencias adicionales en el órden de las palabras, por ejemplo, donde se encuentran los modificadores de los sustantivos, o cuando las mismas palabras se utilizan como una pregunta o como una afirmación.
En reconocimiento de voz, la señal de voz y la representación textual correspondiente se puede asignar a cada uno en otros bloques en orden. Esto no es siempre el caso con el mismo texto en dos idiomas. Para SMT, el traductor automático sólo puede administrar pequeñas secuencias de palabras, y orden de las palabras tiene que ser pensada por el diseñador del programa. Los intentos de soluciones han incluido nuevos pedidos de modelos, donde se adivina una distribución de cambios de ubicación para cada elemento de la traducción del bi-texto alineados. Diferentes cambios de ubicación puede ser clasificados con la ayuda del modelo de lenguaje y el mejor puede ser seleccionado.
Sintaxis
De vocabulario palabras (OOV)
Sistemas SMT almacenar formularios diferentes palabras como símbolos independientes sin ninguna relación entre sí y formas de la palabra o frases que no estaban en los datos de entrenamiento no se pueden traducir. Esto podría ser debido a la falta de datos de entrenamiento, los cambios en el dominio humano, cuando se utilice el sistema, o las diferencias en la morfología.
Véase también
- AppTek
- Asia en línea
- Basada en ejemplos de traducción automática
- Google Translate
- Language Weaver
- Traducción automática
Referencias
- ↑ W. (1955). Traducción (1949). En: Traducción automática de las lenguas, MIT Press, Cambridge, MA.
- ↑ P. Brown, S. Della Pietra, V. Della Pietra, y R. Mercer (1993). Las matemáticas de la traducción automática estadística: estimación de parámetros. Lingüística Computacional,19 (2 ), 263-311.
- ↑ S. Vogel, H. y Ney C. Tillmann. 1996. Basados en HMM Palabra Alineación en StatisticalTranslation. En Coling '96: La 16 ª Conferencia Internacional de Lingüística Computacional, pp. 836-841, Copenhague, Dinamarca.
- ↑ a b F. Och y Ney H. (2003). Una comparación sistemática de los diferentes modelos estadísticos de alineación. Lingüística Computacional, 29 (1) :19-51
- ↑ P. Koehn, F. J. Och, y Marcu D. (2003). frase estadísticos basados traducción. En Actas de la Conferencia Conjunta sobre tecnologías del lenguaje humano y la Reunión Anual del Capítulo de América del Norte de la Asociación de Lingüística Computacional (HLT /> NAACL ).
- ↑ D. Chiang (2005). Un modelo jerárquico basado en la frase de la traducción automática estadística. En Actas de la 43 Reunión Anual de la Asociación de Lingüística Computacional (ACL'05 ).
- ↑ P. Koehn, H. Hoang, Birch A., C. Callison-Burch, Federico M., N. Bertoldi, B. Cowan, W. Shen, C. Morán, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst. 2007. Moisés: Kit de herramientas de código abierto para la traducción automática estadística. ACL 2007, Sesión de demostración, Praga, República Checa
- ↑ P. Gao, S. Vogel, "Las implementaciones paralelas de herramienta de alineación de Word", Ingeniería de Software, Pruebas, y Aseguramiento de Calidad para el Procesamiento del Lenguaje Natural, pp. 49-57, junio de 2008
- ↑ Philipp Koehn, Franz Josef Och, Daniel Marcu: Frase de traducción estadística basada en ( 2003)
- ↑ W. Hutchens J. y H. Somers. (1992). Una introducción a la traducción automática, 18.3:322. ISBN 0-12-36280-X
Enlaces externos
- Estadísticas Traducción Automática - incluye iniciación a la investigación, conferencias, corpus y listas de software.
- Moisés: un estado de la técnica de sistemas abiertos SMT fuente
- Lista anotada de recursos estadísticos procesamiento del lenguaje natural - Incluye enlaces a libre disposición de software de traducción estadística de la máquina.
- [GIZA + +: Word Concordancia
- implementaciones en paralelo de GIZA++
- una plataforma de código abierto para la traducción automática por datos que combina los enfoques de la SMT y EBMT
- Una mejor utilización de los recursos
Wikimedia foundation. 2010.