lunes, 28 de junio de 2010

1.3.4 Mapa del sitio web (ii)

Continuación desde la entrada anterior: "1.2.4 Mapa del sitio web (i)"

  • El archivo robots.txt Es un archivo de texto (UTF-8) que dicta unas directrices para que todos los bots de los buscadores puedan:
    • Impedir acceso a robots determinados
    • Reducir sobrecarga del servidor... al poder indicar al bot a que archivos debe acceder y a cuales no
    • Prohibir zonas
    • Eliminar contenido duplicado
    • Fijar mapas del sitio
    El archivo robots.txt es el primer archivo que visitará los robots de los motores de búsqueda y su importancia esencial.

En User-agent ("nombre del robot") para especificar nombre del robot, se puede emplear User-agent:all ó User-agent:* para todos los robots; el robot de Google es "googlebot". Después se ponen las rutas donde queremos prohibir que acceda el /los robots

  • Disallow:/ prohíbe la entrada a todo el sitio.
  • Disallow:/foro/ prohíbe la entrada a el directorio "foro" del site.
  • Disallow: permite la entrada a todo el sitio.
  • Allow:/ permite la entrada a todo el sitio.
  • Sitemap:url_del_sitemap especifica la ubicación de donde está el sitemap.

No hay comentarios:

Publicar un comentario