- Heritrix
-
Contenido
Heritrix
Heritrix es un rastreador (o crawler) de ficheros web a través de internet. Su licencia es open-source y esta escrito completamente en JAVA. Su interfaz de configuración es accesible usando un navegador web, haciéndolo muy versátil y cómodo de usar, aunque también puede ser lanzando desde línea de comandos.
Heritrix fue desarrollado conjuntamente por "Internet Archive" y "Nordic National Libraries" a principios de 2003. La primera versión fue publicada en enero de 2004 y ha sido continuamente actualizado por los miembros de "Internet Archive" y terceras partes.
Ficheros Arc
Heritrix por defecto almacena los recursos web que crawlea en un fichero Arc. El formato Arc ha sido usado por el "Internet Archive" desde 1996 para almacenar sus archivos webs.
Un fichero Arc almacena múltiples recursos en un único fichero con el fin de evitar la gestión de una gran cantidad de archivos pequeños. El archivo consta de una secuencia de registros de URL, cada una con una cabecera que contiene metadatos acerca de la forma en que el recurso se pidió seguida de la cabecera HTTP y la respuesta.
Ejemplo:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </html>
Herramientas para procesar los ficheros Arc
Heritrix incluye un conjunto de herramientas a través de la línea de comandos llamado arcreader el cual puede ser usado para extraer el contenido de un fichero Arc. El siguiente comando lista todas las URLs y metadatos almacenados en el fichero Arc:
arcreader IA-2006062.arc
El siguiente comando extrae hello.html del ejemplo de fichero Arc anterior, suponiendo que el registro empieza en la posición 140:
arcreader -o 140 -f dump IA-2006062.arc
Otras herramientas:
Proyectos que usan Heritrix
Referencias
- Burner, M. (1997). «Crawling towards eternity – building an archive of the World Wide Web». Web Techniques 2 (5). http://www.webtechniques.com/archives/1997/05/burner/.
- http://crawler.archive.org/
Wikimedia foundation. 2010.