Estándar de exclusión de robots

Estándar de exclusión de robots: Estándar de exclusión de robots

Saltar a navegación, búsqueda

El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.

Contenido

1 El archivo robots.txt

2 Desventajas

3 Ejemplos

4 Observaciones

5 Véase también

6 Enlaces externos

El archivo robots.txt

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.

Desventajas

Este protocolo es consultivo. Confía en la cooperación de los robots del sitio Web, de modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso de un archivo robots.txt, aunque éste no necesariamente garantice aislamiento completo. Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas secciones privadas, invisibles al resto del mundo, pero dado que los archivos están disponibles en forma pública, su contenido podría ser visto de todas maneras por cualquier persona con un navegador Web y conocimientos medianamente avanzados.

Cuerpo o estándar RFC oficial para el protocolo de robots.txt. Fue creado por consenso en junio de 1994 por los miembros de robots que enviaban la lista (robots-request@nexor.co.uk). La información que especifíca las piezas que no deben ser alcanzadas se especifica en un archivo llamado robots.txt en el directorio de nivel superior del sitio Web. Los patrones de robots.txt son emparejados por comparaciones simples de subsecuencia, así que se debe tomar cuidado para cerciorarse de que los directorios tengan concordancia con el modelo, y que tengan añadido el carácter “/” al final, si no todos los archivos con nombres comenzando con esa subsecuencia emparejarán, más bien que apenas ésos en el directorio previsto.

Ejemplos

Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el código raíz de la página web porque el comodín “*” especifica todos los robots:

User-agent: * Disallow:

Cabe destacar que el comodín (*) significa "ALL" o en lo sucesivo en español "TODOS"

Este ejemplo les niega el acceso a todos los bots (implementando el comodin [*], en todos los archivos almacenados en el directorio raíz:

User-agent: * Disallow: /

Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.

El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el comodín (/) deben ser bloqueados, únicamente éstos, exceptúando a todos los demás archivos y directorios que no contienen un comodín, para su revisión:

User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/

Observaciones

Los robots de los buscadores son sensibles a las mayúsculas y minúsculas, es importante agregarlos tal y como aparecen listados en el servidor, para una buena programación y entendimiento (Robot-Servidor)

Véase también

Web crawler

Enlaces externos

robotstxt.org

Guía del archivo robots.txt

El archivo robots.txt

Obtenido de "Est%C3%A1ndar de exclusi%C3%B3n de robots"

Categorías: Internet | Formatos y estándares de software

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

Agente de usuario — Un agente de usuario es una aplicación informática que funciona como cliente en un protocolo de red; el nombre se aplica generalmente para referirse a aquellas aplicaciones que acceden a la World Wide Web. Los agentes de usuario que se conectan a … Wikipedia Español
GNU Wget — 1.10.2 continuando una descarga en Konsole Desarrollador Micah Cowan … Wikipedia Español

Los diccionarios y las enciclopedias sobre el Académico

Estándar de exclusión de robots

Estándar de exclusión de robots

Contenido

El archivo robots.txt

Desventajas

Ejemplos

Observaciones

Véase también

Enlaces externos

Mira otros diccionarios:

Compartir el artículo y extractos

Los diccionarios y las enciclopedias sobre el Académico

Wikipedia Español

Estándar de exclusión de robots

Estándar de exclusión de robots

Contenido

El archivo robots.txt

Desventajas

Ejemplos

Observaciones

Véase también

Enlaces externos

Mira otros diccionarios:

Compartir el artículo y extractos

Link directo