- Bitextor
-
Bitextor
Bitextor es una aplicación libre de código abierto que tiene como objetivo la generación de memorias de traducción a partir de sitios web multilingües, que son utilizados como corpus base. Bitextor está publicado bajo licencia GNU GPL v2.
La aplicación descarga todos los ficheros HTML del sitio web indicado por el usuario. Entonces, realiza un preproceso para convertirlos a un formato coherente y adecuado para los siguientes pasos. Seguidamente, se aplica un conjunto de heurísticas (principalmente basadas en la estructura de etiquetas HTML y la longitud de las cadenas de texto) para hacer parejas de ficheros que seran considerados como candidatos a contener el mismo texto en diferentes idiomas. A partir de estos candidatos, se generan las memorias de traducción en formato TMX mediante la librería LibTagAligner, que utilitza las etiquetas HTML y la longitud de los bloques de texto (también) para realizar el alineamiento.
El objetivo de esta herramienta es el de facilitar la obtención de corpus multilingüe a partir de Internet. Bitextor fue desarrollado, en un principio, para facilitar el proceso de entrenamiento de aplicaciones de traducción automática y, concretamente, la de la plataforma Apertium.
Véase también
- Traducción automática
- Procesamiento del lenguaje natural
Enlaces externos
Categorías: Lingüística computacional | Software libre
Wikimedia foundation. 2010.