Diccionario morfológico

Diccionario morfológico

Diccionario morfológico

Un diccionario morfológico es un archivo que contiene las correspondencias entre las formas superficiales y léxicas de las palabras. Las formas superficiales son palabras encontradas en un texto, en todas sus posibles formas (género, número, tiempo...). La forma léxica es la raíz o lema de las palabras, acompañado de esa información de género, número, etc. En español cantaríamos es una forma superficial, cuya forma léxica sería cantar, verbo, condicional, 1ª persona, plural. Se pueden encontrar 2 tipos de diccionarios morfológicos: alineados y no alineados.

Contenido

Diccionarios morfológicos alineados

En un diccionario morfológico alineado la correspondencia entre la forma superficial y léxica de una palabra se encuentra alineada a nivel de carácter. En el ejemplo anterior tendríamos:

(c,c) (a,a) (n,n) (t,t) (θ,a) (θ,r) (θ,<vb>) (a,θ) (r,θ) (í,<cnd>) (a,θ) (m,<1>) (o,<pl>) (s,θ)

donde θ es el símbolo vacío y <vb>, <cnd>, <1>, <pl> se corresponden a verbo, condicional, 1ª persona y plural.

El primer carácter del carácter del ejemplo sería la entrada (forma superficial) y el segundo la salida (forma léxica). Esta ordenación sería valida para el uso en analizadores morfológicos, donde a partir de una forma superficial obtendríamos su forma léxica. En el caso del uso en generadores morfológicos la ordenación sería al revés.

Formalmente si Σ es el alfabeto de los símbolos de entrada y Γ el de los símbolos de salida, un diccionario morfológico alineado es un subconjunto  A \subset L^* donde:

 L = ( \Sigma \cup { \theta } ) \times \Gamma \cup \Sigma \times ( \Gamma \cup { \theta } )

es el alfabeto de todos los posibles alineamientos, incluyendo el símbolo vacío.

Diccionario morfológico no alineado

Un diccionario morfológico no alineado es simplemente un conjunto  U \subset \Gamma^* \times \Sigma^* de parejas de palabras de entrada y salida. Un diccionario morfológico no alienado representaría el ejemplo anterior como:

(cantaríamos, cantar<vb><cnd><1><pl>)

Se puede obtener fácilmente un diccionario alineado a partir de uno no alineado.

Ambigüedades léxicas

En ocasiones puede existir más de una forma léxica asociada a una forma superficial. Por ejemplo canto puede corresponderse a la 1ª persona del singular del presente del verbo cantar, o bien, nombre (singular, masculino). Por ello es necesario una función que relaciona a las cadenas de entradas con sus correspondientes cadenas de salida.

Si definimos el conjunto  E \subset \Sigma^* de palabras de entrada, siendo  E = { w: (w,w') \in U } . La función que haría la correspondencia sería  \tau : E \rightarrow 2^{\Gamma^{*}} definida como:  \tau(w) =  w' : (w,w') \in U

Referencias

  • Alicia Garrido-Alenda and Mikel L. Forcada (2002). Comparing nondeterministic and quasideterministic finite-state transducers built from morphological dictionaries.

Véase también

Obtenido de "Diccionario morfol%C3%B3gico"

Wikimedia foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Mira otros diccionarios:

  • Transductor de estados finitos determinista p-subsecuencial adelantado — Los transductores de estados finitos son Autómatas de estados finitos deterministas con transiciones sobre parejas de símbolos. Un transductor de estados finitos determinista p subsecuencial adelantado (TpSSDA o EDpSST de sus siglas en inglés… …   Wikipedia Español

  • Literatura hispanohebrea — Manuscrito de la Guía de perplejos de Maimónides (texto en hebreo). Se denomina literatura hispanohebrea a la producción literaria desarrollada en la Península Ibérica a partir del siglo X por parte de miembros de la comunidad judía. Los …   Wikipedia Español

  • Bifaz — Saltar a navegación, búsqueda Primer bifaz publicado en la historia de la Arqueolog …   Wikipedia Español

  • Idioma aimara — Para otros usos de este término, véase aimara. Aimara Aymar aru / Jaqi aru Hablado en  Bolivia (La Paz, Oruro, Potosí) …   Wikipedia Español

  • Traducción automática mediante transferencia — La traducción por transferencia es un tipo de traducción automática. Se fundamenta sobre las bases de interlingua, y es actualmente uno de los métodos de traducción automática más ampliamente utilizados. Contenido 1 Visión General 2… …   Wikipedia Español

  • Esperanto — Para otros usos de este término, véase Esperanto (desambiguación). Esperanto Esperanto Creado por L. L. Zamenhof Hablado en …   Wikipedia Español

  • Idioma croata — El texto que sigue es una traducción defectuosa o incompleta. Si quieres colaborar con Wikipedia, busca el artículo original y mejora o finaliza esta traducción. Puedes dar aviso al autor principal del artículo pegando el siguiente código en su… …   Wikipedia Español

  • Gramática del español — Estatua del gramático Antonio de Nebrija en la Biblioteca Nacional de Madrid, por Anselmo Nogués. En 1492, Nebrija fue el primer europeo en escribir una gramática de una lengua románica o neolatina, el español …   Wikipedia Español

  • Idioma maya — Maya Maaya t aan Hablado en  México  Belice …   Wikipedia Español

  • Sanlúcar de Barrameda — Sanlúcar de Barrameda …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”