Indización automática

Indización automática

La indización automática es la selección de un conjunto de términos que representen íntegramente un documento (texto, imagen, sonido) por medio de un programa informático. Hasta finales de la década de 1950, la indización se venía realizando en las Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene trabajando en automatizar esta tarea.

Contenido

Contexto

Los antecedentes más remotos de la indización se encuentran en la antigua Mesopotamia cuando, en el exterior de las cestas de mimbre en las que guardaban las tablillas de barro, colocaban una frase que servía para conocer de qué trataban las tabillas allí depositadas sin necesidad de abrir dichas cestas. Con este sistema tan simple, se conseguía almacenar de manera más o menos organizada las tablillas (almacenamiento de datos) y además, ese sistema ayudaba, posteriormente, a localizar información (recuperación de información). La indización es por tanto, un proceso intelectual o automático, llevado a cabo generalmente por profesionales de la Información y Documentación (bibliotecarios, documentalistas y archiveros) por el cual se analiza el contenido de un documento para seleccionar un conjunto de conceptos que representan el contenido íntegro de dicho documento, y normalmente, dichas palabras seleccionadas del documento en lenguaje natural (esto es, palabras clave), se convierten en lenguaje controlado (descriptores y encabezamientos de materia) una vez que se buscan y encuentran sus equivalentes en los lenguajes de indización (tesauro, listas de encabezamiento de materias o listado alfabético de descriptores). De este modo, esos descriptores o encabezamientos de materia sirven para el almacenamiento de esos documentos en bases de datos o catálogos y recuperación también para su posterior recuperación. Por tanto, el objetivo general de la indización es el almacenamiento y recuperación de información.

Los primeros pasos para la automatización de la indización se dieron a finales de 1950 en la disciplina de Ciencias de la Información (Biblioteconomía y Documentación), y dentro de ésta, en el área de Procesos técnicos. Después de la Segunda Guerra Mundial se produjo un crecimiento exponencial de la información. Debido a este incremento fue preciso ir incorporando a las unidades documentales (bibliotecas y centros de documentación) formas de trabajo más ágiles, es decir, intentar automatizar algunos de las tareas que tradicionalmente se venían realizando intelectualmente y que requieren mucho esfuerzo y tiempo.

El pionero en trabajar en esto fue H.P. Luhn. Luhn (1957) toma la Ley de Zipf para aplicarla en automatizar esta tarea. Desde entonces en la numerosa literatura científica producida sobre este asunto se le ha denominado de diferentes maneras. Así, podemos encontrar denominaciones como 'Indización asistida por computador', 'Indización automatizada', 'Indización computerizada', 'Indización por computador', 'Indización mecanizada', 'Indización semiautomática' o la misma Indización automática, entre otras [Gil Leiva, 2008]. Según este autor, estas distintas denominaciones hacen referencia a tres conceptos diferentes:

  1. Indización asistida por ordenador durante el almacenamiento: Programas informáticos que asisten en el proceso de almacenamiento de los términos de indización, una vez obtenidos de modo intelectual.
  2. Indización semiautomática: Programas informáticos que analizan los documentos y seleccionan los términos de indización, pero un profesional debe validar, editar (si fuera necesario) y asignar definitivamente dichos términos a los documentos.
  3. Indización automática: Programas informáticos que analizan, seleccionan y asignan a los documentos términos de indización sin ninguna intervención humana.

Herramientas

Algunas de las herramientas que vienen utilizando los programas informáticos para conseguir una indización automática son las siguientes (Gil Leiva, 2008):

  • Listas de palabras vacías: Fichero compuesto por artículos, conjunciones, preposiciones, adverbios como por ejemplo (el, la, por, para, con, sin, etc.). Es decir, palabras que por sí solas no transmiten carga temática.
  • Ponderación de términos: Uso de la frecuencia para dar valores a las palabras que aparecen en los documentos.
  • Analizadores lingüísticos: Analizadores o etiquetadores morfológicos, sintácticos o semánticos para realizar un procesamiento de lenguajes naturales.
  • Algoritmo: Listado definido y ordenado de operaciones para solucionar un problema.
  • Vocabulario controlado: Listado alfabético y/o sistemático de terminología especializada.
  • Reconocedores de nombres propios y siglas.

Sistemas de indización automática

Los avances en la indización automática se han ido utilizando en determinadas unidades documentales que manejan gran cantidad de información. De este modo, han surgido prototipos como Shapire desarrollado por la Biblioteca Nacional de Medicina de los Estados Unidos;[1] en el centro de documentación de la NASA;[2] en el Laboratorio Europeo de Física de Partículas (CERN) de Ginebra[3] o SISA,[4] entre otros.


Notas al pie

  1. Hersh y Greenes, 1990
  2. Silvestre, Genuardi y Klingbiel, 1994
  3. Montejo Ráez, 2001
  4. Gil Leiva, 2003

Bibliografía

  • HERSH, W.R. y GREENES, R.A. SAPHIRE, an information retrieval system featuring concept matching automatic indexing, probabilistic retrieval, and hierarchical relationships. Computers and Biomedical Research, 1990, vol. 23, p. 410-425. ISSN 0010-4809
  • LUHN, H.P. A statistical approach to mechanized enconding and searching of literary information. IBM Journal of Resarch and Development, 1957, vol. 1, nº 4, p.309-317. ISSN 0018-8646
  • MONTEJO RÁEZ, Arturo. Proyecto de indexado automático para documentos en el campo de la física de altas energías. Boletín de Sociedad Española para el Procesamiento del Lenguaje Natural, 2001, nº 27, septiembre, p. 295-296. ISSN 84-8454-163-0

Véase también


Wikimedia foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Mira otros diccionarios:

  • Indización — De acuerdo a la norma ISO 5963 (1985) la indización es el proceso de describir o representar el contenido temático de un recurso de información. Este proceso da como resultado un índice de términos de indización que será utilizado como… …   Wikipedia Español

  • Eugene Garfield — Saltar a navegación, búsqueda Eugene Garfield (16 de septiembre de 1925), conocido como Gene Garfield, es un documentalista científico estadounidense, o científico de la información. Es el creador del Instituto para la Información Científica… …   Wikipedia Español

  • Cyril Cleverdon — Saltar a navegación, búsqueda Cyril W. Cleverdon (Bristol, 1914 Cranfield, 1997), documentalista científico inglés, pionero de la disciplina Recuperación de información en sistemas documentales. Proporcionó un objeto de estudio, una metodología… …   Wikipedia Español

  • Hans Peter Luhn — (1 de julio de 1896 – 19 de agosto de 1964) fue un informático alemán. Trabajó para IBM y creó, entre las más de 80 patentes que le concedieron, el Algoritmo de Luhn. También fue documentalista científico, siendo el primero en emplear la… …   Wikipedia Español

  • George Kingsley Zipf — (1902 1950) fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas. A él se debe la llamada Ley de Zipf, que afirma que un pequeño número de palabras son utilizadas con mucha frecuencia,… …   Wikipedia Español

  • Modelo de espacio vectorial — Se conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado, recuperación, indexado y cálculo de relevancia de información. Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores… …   Wikipedia Español

  • Servicios Bibliotecarios de la Universidad de Los Andes — Los Servicios Bibliotecarios de la Universidad de Los Andes (SERBIULA), es el nombre de la dependencia de la Universidad de Los Andes (ULA) encargada de coordinar y dirigir las bibliotecas de esta institución en sus tareas de depósito, acopio,… …   Wikipedia Español

  • Lenguaje documental — Saltar a navegación, búsqueda El lenguaje documental es «un sistema artificial de signos normalizados que facilitan la representación formalizada del contenido de los documentos para permitir la recuperación, manual o automática, de información… …   Wikipedia Español

  • Tesauro — Tesauro. Para otros usos de este término, véase Thesaurus. Tesauro es el listado de palabras o términos empleados para representar conceptos. Proviene del latín thesaurus ( tesoro ), y este a su vez del griego clásico thesauros (θησαυρός …   Wikipedia Español

  • Keith van Rijsbergen — Keith van Rijsbergen. Cornelius Joost van Rijsbergen (Rotterdam, 1943), más conocido como Keith van Rijsbergen, es un programador informático e investigador del procesamiento del lenguaje natural y de la disciplina Recuperación de información.… …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”