GNU Wget

GNU Wget
GNU Wget
GNU Wget 1.10.2
GNU Wget 1.10.2 continuando una descarga en Konsole
Desarrollador
Micah Cowan
http://www.gnu.org/software/wget
Información general
Última versión estable 1.13.4
17 de septiembre de 2011; hace 19 días (2011-09-17)
Género cliente FTP
Sistema operativo multiplataforma
Licencia GPL
En español ?

GNU Wget es una herramienta libre que permite la descarga de contenidos desde servidores web de una forma simple. Su nombre deriva de World Wide Web (w), y de «obtener» (en inglés get), esto quiere decir: obtener desde la WWW.

Actualmente soporta descargas mediante los protocolos HTTP, HTTPS y FTP.

Entre las características más destacadas que ofrece wget está la posibilidad de fácil descarga de mirrors (espejos) complejos de forma recursiva, conversión de enlaces para la visualización de contenidos HTML localmente, soporte para proxies...

Su primer versión se lanzó en 1996, coincidiendo con el boom de popularidad de la web. Es un programa utilizado a través de línea de comandos, principalmente en sistemas de UNIX/Linux. Escrito en el lenguaje de programación C, Wget puede ser fácilmente instalado en sistemas derivados de UNIX, y ha sido portado a muchas interfaces gráficas de usuario (GUI) y aplicaciones gráficas de descarga como Gwget[1] para GNOME, wGetGUI[2] y VisualWget[3] para Microsoft Windows, Wget 1.10.2r2[4] para Mac OS X.

Contenido

Características

Robustez

Wget ha sido diseñado para la robustez en conexiones de red lentas o inestables. Si una descarga no se completa debido a un problema en la red, Wget automáticamente tratará de seguir descargado desde donde acabó, y repetir el proceso hasta que el archivo completo haya sido recuperado. Fue uno de los primeros clientes que hizo uso de la entonces nueva cabecera HTTP Range, para ofrecer está característica.

Descarga recurrente

Wget opcionalmente puede trabajar como una araña web extrayendo recursos enlaces de las páginas web HTML y descargarlas en la secuencia, repitiendo el proceso recursivamente hasta que todas las páginas hayan sido descargadas o hasta que haya sido alcanzada una profundidad de repetición máxima especificada por el usuario. Las página web descargadas son guardadas en una estructura de directorio que se parece a un servidor remoto. Esta descarga recurrente permite hacer una copia exacta de cualquier sistema de archivos parcial o completamente de un sitio web vía HTTP. Los enlaces de sitios web HTML descargados pueden ser ajustados para indicar el punto o zona de descarga. Cuando se realiza esta clase de copia exacta del sistema de archivos (en inglés mirroring) automática de un sitio web, Wget es compatible con el estándar de exclusión de robots.

Portabilidad

Escrito en una forma que permita la portabilidad, en lenguaje de programación C y con la menor cantidad posible de bibliotecas de terceros, Wget requiere no mucho más que un compilador de C y una interfaz tipo de BSD para usar la red con TCP/IP. Diseñado como un programa Unix para invocarse desde una línea de comandos, el programa ha sido portado a numerosos sistemas y ambientes tipo Unix, tales como Cygwin y Mac OS X, así como también a sistemas Microsoft Windows.

Otras características

  • Wget soporta descargas a través de proxies, los cuales son ampliamente desplegados para proporcionar acceso web dentro de cortafuegos de empresas y al caché para rápidamente entregar contenido de acceso frecuente.
  • Hace uso de conexiones persistentes de HTTP donde están disponibles.
  • Compatible con IPv6 en sistemas que incluyan las interfaces apropiadas.
  • Puede usarse SSL/TLS para el cifrado de las descargas usando la biblioteca OpenSSL.
  • Puede descargar archivos más grandes a 2 gigabytes en sistemas de 32 bits que incluyan las interfaces apropiadas.
  • La velocidad de descarga puede ser limitada para evitar consumir toda el ancho de banda disponible.

Uso de Wget

El uso típico de GNU Wget consiste en invocar desde la línea de comandos una o más URL como argumentos:

# Descarga del título de página ejemplo.com a un archivo
# llamado "index.html".
wget http://www.ejemplo.com/
# Descarga desde el código fuente con Wget de un sitio GNU ftp.
wget ftp://ftp.gnu.org/pub/gnu/wget/wget-1.10.2.tar.gz

El uso más complejo incluye descargas automáticas desde múltiples URLs en un directorio con jerarquía:

# Descarga del título de página ejemplo.com , acompañado con
# las imágenes y el ''estilo de cascada'' (css) necesario para mostrar la página, y convertir las
# URLs dentro para referirse a los contenidos disponibles a nivel local.
wget -p -k http://www.ejemplo.com/
# Descarga de todo el contenido de ejemplo.com
wget -r -l 0 http://www.example.com/

Avanzado

# Descargar un espejo de las erratas (errores) para un libro que usted/tú justo compró.
# Seguir todos los enlaces locales recursivamente y hacer apropiados los archivos
# para verlos desconectado.
# Usar una espera arbitraria (al azar) de 0 a 5 segundos entre los archivos.
# Cuando hay un fracaso, reintentar hasta 7 veces con 14 segundos 
# entre cada reintento.
# Poner al agente de usuario a Firefox en Windows XP e ignorar exclusiones.
# Recoger resultados de acceso al archivo local "myLog.log"
wget -t 7 -w 5 --waitretry=14 --random-wait --user-agent="Mozilla/5.0 
     (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 
      Firefox/1.5.0.1" -m -k -K -e robots=off 
      http://www.oreilly.com/catalog/upt3/errata/ -o ./myLog.log
* Recoger sólo los enlaces específicos listados línea a línea en 
* el archivo local "my_movies.txt" 
* Usar una espera arbitraria de 0 a 33 segundos entre archivos.
* Cuando hay un fracaso, reintente para hasta 22 veces con 48 segundos 
* entre cada reintento. No envíe ningún agente de usuario en absoluto. Ignore exclusiones de robot.
* Colocar todos los archivos capturados en el directorio "/movies" 
* y recoger los resultados de acceso al archivo local "my_movies.log"
* Bueno sólo para descargar imágenes específicas conocidas u otros archivos.
wget -t 22 --waitretry=48 --wait=33 --random-wait --user-agent=""
     -e robots=off -o ./my_movies.log -P/movies -i ./my_movies.txt
*Uso de wget para descargar contenido protegido por referer y cookies.
*1. obtener la url base y guardar sus cookies en el archivo 
*2. obtener el contenido protegido usando cookies almacenadas 
wget --cookies=on --keep-session-cookies --save-cookies=cookie.txt http://first_page
wget --referer=http://first_page --cookies=on --load-cookies=cookie.txt --keep-session-cookies --save-cookies=cookie.txt http://second_page
#Sitio web espejo a una copia estática para un navegador local.
#Esto quiere decir que todos los enlaces serán cambiados para apuntar a los archivos locales.
#Nota --html-extension convertirá cualquier archivo CGI, ASP O PHP generado a HTML (o algo más no .html).
wget --mirror -w 2 -p --html-extension --convert-links -P <dir> http://www.yourdomain.com

Referencias

  1. Gwget (en inglés).
  2. wGetGUI (en inglés).
  3. VisualWget (en inglés).
  4. Wget para Mac OS X (en inglés).

Enlaces externos


Wikimedia foundation. 2010.

Игры ⚽ Нужно решить контрольную?

Mira otros diccionarios:

  • GNU Wget — Capture d écran de Wget sous GNU/Linux …   Wikipédia en Français

  • GNU Wget — …   Википедия

  • GNU WGet — …   Википедия

  • Wget — Developer(s) Giuseppe Scrivano, Hrvoje Nikšić Initial release January 1996; 15 years ago (1996 January) Stable release 1.13.4 / 17 September 2011; 2 months ago ( …   Wikipedia

  • WGet — GNU Wget Тип Менеджер закачек Разработчик Mauro Tortonesi ОС UNIX, Microsoft Windows, Windows NT Версия 1.11.4 30 июня …   Википедия

  • Wget — GNU Wget Тип менеджер загрузок Автор Hrvoje Nikšić …   Википедия

  • Wget — GNU Wget Wget im Einsatz Basisdaten Entwickler GNU Wget Entwicklerteam. Hrvoje Nikšić, Micah Cowan u. a …   Deutsch Wikipedia

  • Wget — Développeur Hrvoje Nikšić (Auteur original) Dernière version …   Wikipédia en Français

  • GNU's Not UNIX — GNU GNU Famille Type Unix Type de noyau …   Wikipédia en Français

  • GNU/Hurd — GNU GNU Famille Type Unix Type de noyau …   Wikipédia en Français

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”