General Architecture for Text Engineering

General Architecture for Text Engineering
GATE
GATE5 main window.png
ventana principal de GATE Developer v5
Desarrollador
GATE research team, Dept. Computer Science, University of Sheffield
http://gate.ac.uk/
Información general
Última versión estable 5.2.1 (info)
6 de mayo de 2010; hace 1 año (2010-05-06)
Última versión en pruebas 6.0.0
4 de febrero de 2011; hace 9 meses (2011-02-04)
Género Minería de textos, Extracción de la información
Programado en Java
Sistema operativo Multiplataforma
Licencia LGPL
Idiomas Inglés
En español No. 

General Architecture for Text Engineering o GATE es una suite de herramientas Java desarrolladas en la Universidad de Sheffield, que comenzó en 1995 y hoy es usada por una amplia comunidad de científicos, compañías, profesores y estudiantes para tareas de Procesamiento de lenguajes naturales (PLN o NLP) de todo tipo, incluyendo Extracción de la información, en varios idiomas.

GATE tiene como objetivo eliminar la necesidad de resolver problemas comunes de ingeniería antes de hacer investigación útil, o reingeniería de procesos antes de convertir los resultados de la investigación en aplicaciones. Las funciones principales de GATE cuidan de su parte del león de la ingeniería:

Además de las funciones principales, GATE incluye componentes para tareas de procesado de idiomas naturales, p.ej. análisis sintáctico (parse), morfología, etiquetado, herramientas de recuperación de información, componentes de extracción de información para varios idiomas, y muchos otros. Ha sido ampliamente empleado en campos como la bioinformática[2] y otros. GATE Developer y GATE Embedded se lanzan con un sistema de extracción de información (ANNIE) que ha sido adaptado y evaluado ampliamente (sistemas industriales, sistemas de investigación en MUC, TREC, ACE, DUC, Pascal, NTCIR, etc.). ANNIE también se usa para crear metadatos RDF u Web Ontology Language (OWL) (metadata) para contenido sin estructurar (semantic annotation). GATE has been compared to NLTK, R y RapidMiner.[3] Además forma la base de la plataforma semántica KIM.[4]

La comunidad GATE se ha visto involucrada en varios proyectos de investigación europea tales como TAO, SEKT, NeOn, Media-Campaign, Musing, Service-Finder, LIRICS y KnowledgeWeb, así como otros proectos.

Contenido

Características

GATE incluye:[5]

  • un IDE, GATE Developer: un entorno de desarrollo integrado con componentes incluidos para Procesamiento de lenguajes naturales, con un sistema de extracción de información llamado ANNIE (A Nearly-New Information Extraction System), el cual es un conjunto de módulos que comprenden un tokenizador, un gazetador, un divisor de oraciones, un etiquetador gramatical (de partes del discurso), un transductor reconocedor de nombres de entidades y un etiquetador de correferencia. ANNIE puede usarse como extractor de información, o como punto de partida para tareas más específicas. También incluye un conjunto comprensivo de otros plugins
  • una aplicación web, GATE Teamware: un entorno colaborativo de anotaciones para proyectos de anotación semántica estilo fabril (factory-style) construidos en torno a un motor de flujo de trabajo (workflow engine, en inglés) y una infraestructura de servicio backend fuertemente optimizada
  • un marco de trabajo (framework), GATE Embedded: una biblioteca de objetos optimizada para la inclusión en diversas aplicaciones que da acceso a todos los servicios usados por GATE Developer y otros servicios
  • una arquitectura: una imagen organizacional de la composición de software de procesado de idiomas
  • un proceso para creación des servicios mantenibles y robustos

También incluirá lo siguiente, que se encuentra bajo desarrollo:

Los idiomas soportados actualmente incluyen: inglés, español, chino, árabe, francés, alemán, hindi, italiano, cebuano, rumano, ruso.

Se incluyen plugins para funciones como aprendizaje automático con (Weka, RASP, MAXENT, SVM Light, así como integración LibSVM e implementación de perceptrón, para gestión de ontologías como WordNet, para buscar en motores de búsqueda como Yahoo, para etiquetado de partes del discurso con método Brill o TreeTagger, y algunas más.

GATE puede manejar inputs (archivos de entrada) en varios formatos, tales como TXT, HTML, XML, Doc, PDF, y bases de datos Java Serial, PostgreSQL, Lucene, Oracle con ayuda de almacenamiento RDBMS sobre JDBC.

También utiliza lenguaje JAPE ("Java Annotation Patterns Engine") para construcción de reglas para etiquetar documentos. JAPE proporciona transducción de estados finitos sobre anotaciones basadas en expresiones regulares. JAPE es una versión de CPSL – Common Pattern Specification Language. Los transductores JAPE se usan a través de GATE para modificar anotaciones en texto. Se proporciona documentación en la guía de usuario de GATE.[7]

GATE Developer

Ventana principal de GATE 5

GATE Developer es la interfaz de usuario de GATE. Es análoga a sistemas como Mathematica para matemáticos, o Eclipse para programadores en Java,[8] pues provee un entorno gráfico para la investigación y desarrollo de software de procesado de idiomas. También es útil en conjunción con GATE Embedded (la API por la cual la funcionalidad de GATE puede incluirse en aplicaciones); por ejemplo, GATE Developer puede utilizarse para crear aplicaciones que pueden incrustarse entonces vía API.

La GUI de GATE Developer consiste en un menú superior y una fila de icono, un árbol de recursos a la izquierda, un panel tabulado de los visores de recursos en la parte centro-derecha, y un campo de mensajes en la parte inferior.

El árbol de recursos y el menú se usan para cargar, guardar y ejecutar recursos. El árbol muestra los recursos cargados y permite mostrar uno en el visor de recursos haciendo doble clic (o pulsando Enter). Cada recurso cargado puede mostrarse en un visor específico que ocupa la mayor parte del espacio en pantalla.

En esta imagen se puede ver al visor de documentos mostrando un documento y sus anotaciones. En color rosado están <A> anotaciones de hipervínculo de un fichero HTML. La lista de la derecha es la lista de conjuntos de anotaciones y en la tabla inferior está la lista de anotaciones. En el centro se encuentra la ventana del editor de anotaciones.

GATE Teamware

Teamware es una plataforma basada en web para curación y notación colaborativa. GATE Teamware entrega una interfaz de usuario multifunción sobre la Internet para visionado, adición y edición de anotaciones textuales. La interfaz de manejo basada en web permite realizar las siguientes funciones de puesta en marcha y gestión de proyectos:

  • Carga de colecciones de documentos ("corpus” o “corpora”)
  • Creación de plantillas reutilizables de proyectos
  • Inicio de proyectos en base a plantillas
  • Asignación de roles de proyectos a usuarios específicos
  • Monitorización de progreso y estadísticas en tiempo real
  • Reportes (informes) del estado del proyecto, actividad del anotador y estadísticas
  • Aplicación de rutinas de proceso basadas en GATE (procesamiento de anotaciones automáticas o proceso de post-anotación)

Véase también

Referencias

  1. Adapting SVM for Data Sparseness and Imbalance: A Case Study on Information Extraction. Journal Of Natural Language Engineering 2009 (Y. Li, K. Bontcheva and H. Cunningham)
  2. "Combining Biological Databases and Text Mining to Support New Bioinformatics Applications", by René Witte and Christopher J.O. Baker (in "Lecture Notes in Computer Science, Springer Berlin, Volume 3513, 2005)
  3. "Open Source Text Analytics" web article by Seth Grimes
  4. "KIM – a semantic platform for information extraction and retrieval", by Popov et al (Natural Language Engineering (2004), 10:375-392)
  5. GATE Family page on the GATE website
  6. Wiki de GATE (en inglés)
  7. JAPE chapter in the GATE User Guide
  8. GATE Developer chapter in the GATE User Guide

Enlaces externos

Nota


Wikimedia foundation. 2010.

Игры ⚽ Поможем сделать НИР

Mira otros diccionarios:

  • General Architecture for Text Engineering — Infobox Software name = GATE caption = General Architecture for Text Engineering. developer = [http://gate.ac.uk/ GATE research team] , Dept. Computer Science, University of Sheffield released = 1996 frequently updated = yes programming language …   Wikipedia

  • Architecture Générale Pour Le Traitement De Texte — L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers… …   Wikipédia en Français

  • Architecture generale pour le traitement de texte — Architecture générale pour le traitement de texte L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à… …   Wikipédia en Français

  • Architecture générale pour le traitement de texte — L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers… …   Wikipédia en Français

  • General Motors — Company Type Public Traded as NYSE: GM TSX:  …   Wikipedia

  • Text mining — Text mining, sometimes alternately referred to as text data mining , roughly equivalent to text analytics , refers generally to the process of deriving high quality information from text. High quality information is typically derived through the… …   Wikipedia

  • architecture — /ahr ki tek cheuhr/, n. 1. the profession of designing buildings, open areas, communities, and other artificial constructions and environments, usually with some regard to aesthetic effect. Architecture often includes design or selection of… …   Universalium

  • General Motors Chapter 11 reorganization — The General Motors Chapter 11 sale of the assets of automobile manufacturer General Motors and some of its subsidiaries was implemented through section 363 of Chapter 11, Title 11, United States Code in the United States Bankruptcy Court for the… …   Wikipedia

  • Engineering — The Watt steam engine, a major driver in the Industrial Revolution, underscores the importance of engineering in modern history. This model is on display at the main building of the ETSIIM in Madrid, Spain. Engineering is the discipline, art,… …   Wikipedia

  • Engineering drawing — Technical drawings An engineering drawing, a type of technical drawing, is used to fully and clearly define requirements for engineered items. Engineering drawing (the activity) produces engineering drawings (the documents). More than just the… …   Wikipedia

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”