viernes, 25 de junio de 2010

1.3.4 Mapa del sitio web (i)

El mapa del sitio web consiste en una lista de las páginas que forman un sitio web accesibles por una "araña web" de buscadores (bots).

El mapa del sitio puede ser un documento en cualquier formato, usado como herramienta de planificación para el diseño del sitio web, como una página que lista a las demás de sitio web, y organizado de forma jerárquica. Esto ayuda a los visitantes y a los bots de los motores de búsqueda encontrar las páginas del sitio.

El mapa web es un elemento imprescindible dentro de un sitio web

  • Sitemap: Google creó Google Sitemaps (en inglés: mapas de sitio de Google) para que los desarrolladores web puedan publicar listas de enlaces de sus sitios, si no se hace esto, el robot de Google no mira más de 100 por defecto, pues muchos sitios tienen un número grande de páginas dinámicas solo disponibles cuando los usuarios emplean los formularios correspondientes.

    Los Sitemaps pueden emplearse par indicar a una araña (bot) web como deben ser encontradas las páginas

    BÚSQUEDAS AVANZADAS EN GOOGLE:
    • site:www.coepa.es muestra todas las páginas indexadas del sitio
    • cache:coepa.es muestra la última copia cache que hizo Google del sitio; hasta que no haga otra no indexará más contenido
    • lick:coepa.es muestra todas las páginas que tienen un enlace a "coepa.es", o sea, enlaces externos de los que Google tiene constancia
  • El protocolo de Sitemap consta de etiquetas XML, todos los valores de un Sitemap deben incluir "caracteres de escape de identidad":

    caracteres de escape de identidad
    CarácterCódigo de caracteres de escape
    Símbolo unión &&
    Comillas simples ''
    Comillas ""
    Mayor que >>
    Menor que <&lt;

  • El fichero del Sitemap debe estar codificado en UTF-8
  • El Sitemap debe incluir:
    • Comenzar con la etiqueta de apertura <urlset> y acabar con </urlset>
    • Especificar el espacio de nombres (protocolo estándar) en la etiqueta urlset
    • Incluir una etiqueta de entrada <url> para cada dirección URL como una etiqueta XML principal.
      Aquí es donde se aplican los caracteres de escape de la tabla anterior.
    • Incluir una etiqueta secundaria <loc> para cada etiqueta <url>.
    • Etiquetas opcionales:
      • <changefreq> frecuencia con la que cambia la página, por ejemplo:
        • always
        • hourly
        • daily diariamente.
        • weekly semanalmente.
        • monthly para mensualmente.
        • yearly anualmente.
        • never nunca.
      • <priority> prioridad de la página dentro del sitio web, desde 0.0 como mínimo a 1.0 como máximo, por defecto se asigna 0.5 si no se especifica nada, pero a más prioridad, antes las visitará el bot.
      • <lastmod> última modificación en formato de fecha americano "YYYY-MM-DD".
  • Todas las URL del Sitemap deben proceder de un único host (o sitio web, o dominio)
  • toda la teoría se puede encontrar en http://www.sitemaps.org/es/
  • ¿Tengo que generarlo a mano? Se puede generar de forma automática: muchos CMS estándar incorporan esta funcionalidad. También hay herramientas para esto, como el programa GPL como "OPEN Site Map Generator", disponible en http://sourceforge.net/projects/sitemapgen/
  • Ubicación y comunicación del sitio web con los bots y mediante el Sitemap
    • Se recomienda ubicar el Sitemap en la raíz del sitio http://www.mi-dominio.com/sitemap.xml
    • Mediante interfaz de envío Herramientas para Webmaster de Google
    • Mediante solicitud HTTP <buscador_URL>/ping?sitemap=sitemap_url
    • Mediante el archivo robot.txt http://www.mi-diminio.com/sitemap.xml

No hay comentarios:

Publicar un comentario