Codificación de caracteres chinos

Codificación de caracteres chinos

En ámbito informático, una codificación de caracteres chinos se usa para representar texto escrito en los lenguajes comúnmente identificados como CJK (por las siglas en inglés): chino, japonés y coreano, y vietnamita arcaico. Algunas de estas codificaciones se adaptaron a partir de una ya existente, mientras que otras fueron desarrolladas específicamente para el chino.

Sistemas de codificación de caracteres chino más frecuentes

  • Guobiao, usado principalmente en China continental y Singapur. Todos los estándares están precedidos por GB. La última versión es la GB 18030.
  • Big5, se utiliza en Taiwán, Hong Kong y Macao.
  • Unicode.

Aunque usualmente Guobiao se usa para caracteres tradicionales y Big5 para caracteres simplificados, no hay una relación necesaria entre el sistema de codificación y el tipo de letra o fuente. La relación entre ellos es más bien de tipo práctico.

Conversión entre sistemas

La conversión entre chino tradicional y simplificado ordinariamente trae consigo ciertos problemas, porque en algunos casos, en el proceso de simplificación dos o más ideogramas tradicionales se fusionaron en uno simplificado. Por tanto, la conversión desde tradicional hacia simplificado (relación de varios a uno) no crea problemas técnicos. Por el contrario, la transformación en sentido opuesto puede provocar pérdida de información, sobre todo si se usan versiones primitivas de codificación (por ejemplo, el GB 2312). Esta conversión requiere la interpretación del contexto o el uso de frases comunes para resolver los problemas mencionados. El problema es menor con estándares más recientes, com oel GB 18030 o el Unicode, que tienen indicadores de posición diversos para caracteres tradicionales y simplificados.

Otro asunto problemático es el de los caracteres “ausentes”. Aunque en teoría los caracteres ausentes en una codificación son de uso literario o culto, y no se usan en texto ordinario, aparecen con frecuenca en los nombres de las personas. Un ejemplo es el político taiwanés Wang Jian-Hsual, cuyo segundo nombre no aparece en algunas codificaciones. No obstante, el GB 18030 incluye el repertorio completo del Unicode 4.0, incluyendo las extensiones Unihan.

Qué codificación de caracteres escoger tiene también implicaciones políticas, dado que GB es el estándar oficial de la República Popular de China, mientras que Big5 es el estándar de hecho en Taiwán. En Japón, por el contrario, ha habido relativamente poca oposición al uso de Unicode, que resuelve muchos de los problemas que acarrean GB y Big5. Unicode está considerado como políticamente neutral, tiene un buen suporte para caracteres tradicionales y simplificados, y permite una fácil conversión desde las otras dos codificaciones. Más aún, Unicode tiene la ventaja de no estar limitado al Chino, sino que incluye a muchas otras lenguas.


Wikimedia foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

  • Codificación de caracteres — La codificación de caracteres es el método que permite convertir un carácter de un lenguaje natural (alfabeto o silabario) en un símbolo de otro sistema de representación, como un número o una secuencia de pulsos eléctricos en un sistema… …   Wikipedia Español

  • Caracteres chinos simplificados — Chino simplificado Tipo Logográfico Idiomas Idioma chino Época Desde 1956 ISO 15924 Hans …   Wikipedia Español

  • Caracteres especiales — Ayuda:Caracteres especiales Saltar a navegación, búsqueda Para una versión más actualizada (en obras), ver meta:Ayuda:Caracteres especiales. A partir de la versión 1.5 de MediaWiki, todos los proyectos usan la codificación de caracteres Unicode… …   Wikipedia Español

  • Unicode — El Estándar Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas además de textos clásicos de lenguas muertas …   Wikipedia Español

  • UTF-8 — (8 bit Unicode Transformation Format) es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de longitud variable. UTF 8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la RFC 3629 …   Wikipedia Español

  • Carácter (informática) — Saltar a navegación, búsqueda Para otros usos de este término, véase Carácter. En terminología informática y de telecomunicaciones, un carácter es una unidad de información que corresponde aproximadamente con un grafema o con una unidad o símbolo …   Wikipedia Español

  • Cáracter (tipo de dato) — Para otros usos de este término, véase Carácter. En terminología informática y de telecomunicaciones, un carácter es una unidad de información que corresponde aproximadamente con un grafema o con una unidad o símbolo parecido, como los de un… …   Wikipedia Español

  • Jinmeiyō kanji — Ejemplos de caracteres del jinmeiyō kanji: Arriba (de izquierda a derecha): 榊 sakaki (un árbol sagrado), 鵜 u (cormorán), 岡 oka (colina); Abajo (de iz …   Wikipedia Español

  • Sistema de escritura — Sistemas de escritura en el mundo hoy.      Latino (alfabético)   …   Wikipedia Español

  • Wikipedia en chino — Idioma …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”